研究課題/領域番号 |
22K21320
|
研究機関 | 科学警察研究所 |
研究代表者 |
櫻井 航 科学警察研究所, 法科学第四部, 研究員 (50960803)
|
研究期間 (年度) |
2022-08-31 – 2024-03-31
|
キーワード | Attention / Transformer / 著者推定 / 自然言語処理 / 深層学習 |
研究実績の概要 |
今年度は文章の数値化など自然言語処理に関する予備実験を行うとともに、Attention機構を含む深層学習モデルによる著者推定を行い、その精度や注目単語についての検討を行った。 Attention機構を2つ含んだモデルを用いて、青空文庫で公開されたデータをベースとして構築した2人の著者からなる文章のデータセットの各文について著者推定を行ったところ、その正答率は85パーセント程度であった。注目されている単語に関する特徴量を抽出して注目度の高い単語を集計し、出現頻度の高い単語と比較したところ、両者の傾向には差があり、モデルがAttention機構をとおして著者の文章に関する特徴を見出していることが示唆された。しかしデータの量を増加させ、推定する人数を5人にしたところ、正答率は70パーセント程度まで低下したため、精度を向上させるための最適なモデル選択に関する検討を行った。 検討したモデルのアーキテクチャには、TransformerベースのモデルであるBERTを採用した。BERTをベースとして、日本語の文章を用いて事前学習を行ったモデルを転移学習・ファインチューニングしたモデルと、事前学習を行っていないモデルを構築し、その推定精度を比較した。前述の5人の著者を推定した場合、正答率はファインチューニングを行ったもので最も高く85パーセント程度となっており、今後は事前学習済みモデルを用いた検討を行うこととした。 また、上記の予備実験に加えて、複雑なモデルであるTransformerが著者推定を行うメカニズムを模擬した手法構築に関する検討を行い、来年度行う実験の計画を立てた。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
本研究課題の当初の計画は、初年度にTransformerベースのモデルを用いた著者推定の実験を行い、利用する特徴量の選択やそれを用いた著者推定手法の考案を行うとともに、著者推定問題に用いるための適切なデータセットや、それを処理するための適切な計算機環境を構築する、といったものであった。今年度はどの特徴量を選択するかの検討や、選択した特徴量を出力するためのプログラムの開発といった、手法構築に関する検討及び実装は当初の予定以上に進めることができているといえる。しかしながら、事務手続きの遅れにより、必要な計算機環境の整備や、データセットの構築を十分に行うことができなかった。今年度実験に用いたデータは100年前程度の年代に書かれた作品から抽出されたものであるため、現代の日本語とは異なる表現を多く含んでいる。実応用などを考えた際、現代の日本語で書かれた文章からなるデータセットの利用が必須であるといえる。また、十分な計算機環境を有していない状態であるため、学習・推論といったデータの処理に相当の時間を要する。これにより実験結果に関する十分な分析を行うことができていない状態である。成果発表に向けた準備を行うため、今後はデータセットの構築・計算機環境の整備を優先して行っていく必要がある。
|
今後の研究の推進方策 |
実験に用いる現代の日本語で書かれたデータセットの構築を進める。現在、データセットの選定を行い使用のための手続きが進行中である。これと並行して、今後は実験の条件設定やプログラムの改良などの準備を行う。 また、計算機環境を整備することで、構築した大量のデータからなるデータセットを用いた処理を高速で行えるようにするとともに、外部の計算資源を利用を検討し計算を行うための最適な環境を整える。現在、使用するワークステーションの選定を行い購入の手続きが進行中である。 上述の環境を整備したうえで実験を行い、考案した手法の精度を確認する。また、実験結果を分析することで、Transformerに実装されたAttention機構において、注目された単語から著者が推定されるメカニズムに関する解析や、人間が実行可能な著者推定フローの考案等を行う。
|
次年度使用額が生じた理由 |
ワークステーションやデータセットなど物品の取得にかかわる事務手続きに遅れが生じており、購入に至らなかったため。次年度これらの購入に充てる。
|