Project/Area Number |
22K21320
|
Research Category |
Grant-in-Aid for Research Activity Start-up
|
Allocation Type | Multi-year Fund |
Review Section |
1002:Human informatics, applied informatics and related fields
|
Research Institution | National Research Institute of Police Science |
Principal Investigator |
櫻井 航 科学警察研究所, 法科学第二部, 研究員 (50960803)
|
Project Period (FY) |
2022-08-31 – 2025-03-31
|
Project Status |
Granted (Fiscal Year 2023)
|
Budget Amount *help |
¥2,860,000 (Direct Cost: ¥2,200,000、Indirect Cost: ¥660,000)
Fiscal Year 2023: ¥1,430,000 (Direct Cost: ¥1,100,000、Indirect Cost: ¥330,000)
Fiscal Year 2022: ¥1,430,000 (Direct Cost: ¥1,100,000、Indirect Cost: ¥330,000)
|
Keywords | Attention / Transformer / 著者推定 / 自然言語処理 / 深層学習 / 大規模言語モデル / LoRA / 機械学習 |
Outline of Research at the Start |
深層学習モデルのAttention機構は、文章から著者を推定する際注目されている単語を注視領域として示すことができるが、これらの単語と著者の文体特徴との関係性を直感的に理解することは困難である。本研究は、文章の著者推定を行うモデルのAttention機構から文章の注視領域に関する特徴量を抽出し、機械学習による説明性の高い著者推定モデルを構築することで「注視領域から著者が推定されるメカニズム」の解明を試みる。これにより、文章から文体の特徴を捉え著者の推定を行う方法論が構築され、文章の内容に基づく新たな鑑定技術の考案などの波及効果が期待される。
|
Outline of Annual Research Achievements |
今年度は、昨年度行ったAttention機構を含む小規模なモデルと青空文庫で公開されている100年以上前の著作から構築した小規模なデータセットを用いて行った実験で得られた知見を生かし、より大規模なモデルと現代日本語のデータセットを構築するとともにそれを処理するワークステーションの整備などを並行して行い、さらなる実験を進めた。現代日本語のデータセットについては、国立国語研による現代日本語書き言葉均衡コーパスから8人の著者による文章を選定し、構築に利用した。また、Attention機構を含むモデルとして、Transformerのエンコーダ部をベースとしたモデルであるBERTによるクラス分類モデルを用いた。公開されている日本語による事前学習済みモデルを、今回構築したデータセットに合わせてファインチューニングした。識別精度を確認すると、正答率で90パーセント程度であった。また、ファインチューニング手法のひとつであるLoRAを例に、Attentionによる重みづけの値の差から、著者推定向けにファインチューニングされる前後で注目される単語の変化を観察すると、名詞等の文章のトピックに依存する単語と比較して、助詞等のトピック依存性が低い単語への注目の度合いが向上する傾向にあることが確認された。また、このようなモデルでの大量の文章の処理を想定し、計算効率のよいモデル構築についても検討した。Attentionに含まれるQuery,Key,Valueの一部を抜き出した構造を持つパラメータ数の少ないモデルに、前述のファインチューニングされたBERTの知識蒸留を行ったところ、その推定精度は正答率で10パーセントほど下がるものの、計算時間を理論上大幅に短縮できることが確認された。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
前年度終了時は、事務手続きの遅れ等により当初予定していた著者推定問題のためのデータセットの整備や計算機環境の構築を十分に行うことができなかった。今年度は、それらを踏まえ、著者推定問題のための現代日本語によるデータセットの構築・計算機環境の整備を行い、さらにそれらを用いた実験や成果発表を行うことができた。その際、Attentionの重みづけを用いたモデルの解析と並行して、計算速度を上げることを中心に推定手法の効率化を図るための検討ができたことから、進捗状況としてはおおむね順調に推移しているといえる。また、このような研究の進行の一方で、本研究課題開始時と比較して、自然言語処理分野での深層学習モデルがますます発展してきており、より大規模なモデルが開発され、文章の生成などを高精度に行うことができるようになってきている。そのため、このようなモデルによる知見を著者推定問題にも反映させていく必要がある。本研究課題では、これまではTransformerのなかでも、入力された文章を処理し、数値的な特徴量に変換するエンコーダ部をベースとしたBERTなどのクラス分類モデルを中心に実験や解析を行ってきたが、今後は前述したようなより大規模なモデルや生成モデルをベースとした推定手法におけるAttentionによる重みづけと著者との関係性をとらえ、より実応用に適した推定手法を考案するための精緻な実験や解析を行っていく必要があると考えられる。
|
Strategy for Future Research Activity |
より大規模なモデルや生成モデルなど、近年発展しているモデルをベースとした著者推定モデルについてもそのメカニズム解明や実応用のための検討を進める。その際、著者推定問題向けのモデル設計実験の計画・予備実行などと並行して、そのような大規模なモデルを利用するための追加の計算機環境等の整備を必要に応じて行っていく。前年度行わなかった外部の計算資源の利用や、現代日本語のデータセットの拡張なども必要に応じて検討していく。また、そのようなモデルから得られた知見やこれまで行ってきたBERTをベースとした検討を統合して、「Attention機構による著者推定が行われるメカニズムの解明」という明らかにしたい問いについて、これまで研究の成果を用いてまとめる。さらに、それらの成果を用いて、人間が実際に実行可能な推定フローについても具体的に検討していく。その際、計量文献学や統計解析をベースとした古典的な推定手法などとの考え方の違いについても考慮に入れる。
|