Attention機構を用いた著者推定のメカニズム解明

研究課題

研究課題/領域番号	22K21320
研究種目	研究活動スタート支援
配分区分	基金
審査区分	1002:人間情報学、応用情報学およびその関連分野
研究機関	科学警察研究所
研究代表者	櫻井航科学警察研究所, 法科学第二部, 研究員 (50960803)
研究期間 (年度)	2022-08-31 – 2025-03-31
研究課題ステータス	交付 (2023年度)
配分額 *注記	2,860千円 (直接経費: 2,200千円、間接経費: 660千円) 2023年度: 1,430千円 (直接経費: 1,100千円、間接経費: 330千円) 2022年度: 1,430千円 (直接経費: 1,100千円、間接経費: 330千円)
キーワード	Attention / Transformer / 著者推定 / 自然言語処理 / 深層学習 / 大規模言語モデル / LoRA / 機械学習
研究開始時の研究の概要	深層学習モデルのAttention機構は、文章から著者を推定する際注目されている単語を注視領域として示すことができるが、これらの単語と著者の文体特徴との関係性を直感的に理解することは困難である。本研究は、文章の著者推定を行うモデルのAttention機構から文章の注視領域に関する特徴量を抽出し、機械学習による説明性の高い著者推定モデルを構築することで「注視領域から著者が推定されるメカニズム」の解明を試みる。これにより、文章から文体の特徴を捉え著者の推定を行う方法論が構築され、文章の内容に基づく新たな鑑定技術の考案などの波及効果が期待される。
研究実績の概要	今年度は、昨年度行ったAttention機構を含む小規模なモデルと青空文庫で公開されている100年以上前の著作から構築した小規模なデータセットを用いて行った実験で得られた知見を生かし、より大規模なモデルと現代日本語のデータセットを構築するとともにそれを処理するワークステーションの整備などを並行して行い、さらなる実験を進めた。現代日本語のデータセットについては、国立国語研による現代日本語書き言葉均衡コーパスから８人の著者による文章を選定し、構築に利用した。また、Attention機構を含むモデルとして、Transformerのエンコーダ部をベースとしたモデルであるBERTによるクラス分類モデルを用いた。公開されている日本語による事前学習済みモデルを、今回構築したデータセットに合わせてファインチューニングした。識別精度を確認すると、正答率で90パーセント程度であった。また、ファインチューニング手法のひとつであるLoRAを例に、Attentionによる重みづけの値の差から、著者推定向けにファインチューニングされる前後で注目される単語の変化を観察すると、名詞等の文章のトピックに依存する単語と比較して、助詞等のトピック依存性が低い単語への注目の度合いが向上する傾向にあることが確認された。また、このようなモデルでの大量の文章の処理を想定し、計算効率のよいモデル構築についても検討した。Attentionに含まれるQuery,Key,Valueの一部を抜き出した構造を持つパラメータ数の少ないモデルに、前述のファインチューニングされたBERTの知識蒸留を行ったところ、その推定精度は正答率で10パーセントほど下がるものの、計算時間を理論上大幅に短縮できることが確認された。
現在までの達成度 (区分)	現在までの達成度 (区分) 2: おおむね順調に進展している理由前年度終了時は、事務手続きの遅れ等により当初予定していた著者推定問題のためのデータセットの整備や計算機環境の構築を十分に行うことができなかった。今年度は、それらを踏まえ、著者推定問題のための現代日本語によるデータセットの構築・計算機環境の整備を行い、さらにそれらを用いた実験や成果発表を行うことができた。その際、Attentionの重みづけを用いたモデルの解析と並行して、計算速度を上げることを中心に推定手法の効率化を図るための検討ができたことから、進捗状況としてはおおむね順調に推移しているといえる。また、このような研究の進行の一方で、本研究課題開始時と比較して、自然言語処理分野での深層学習モデルがますます発展してきており、より大規模なモデルが開発され、文章の生成などを高精度に行うことができるようになってきている。そのため、このようなモデルによる知見を著者推定問題にも反映させていく必要がある。本研究課題では、これまではTransformerのなかでも、入力された文章を処理し、数値的な特徴量に変換するエンコーダ部をベースとしたBERTなどのクラス分類モデルを中心に実験や解析を行ってきたが、今後は前述したようなより大規模なモデルや生成モデルをベースとした推定手法におけるAttentionによる重みづけと著者との関係性をとらえ、より実応用に適した推定手法を考案するための精緻な実験や解析を行っていく必要があると考えられる。
今後の研究の推進方策	より大規模なモデルや生成モデルなど、近年発展しているモデルをベースとした著者推定モデルについてもそのメカニズム解明や実応用のための検討を進める。その際、著者推定問題向けのモデル設計実験の計画・予備実行などと並行して、そのような大規模なモデルを利用するための追加の計算機環境等の整備を必要に応じて行っていく。前年度行わなかった外部の計算資源の利用や、現代日本語のデータセットの拡張なども必要に応じて検討していく。また、そのようなモデルから得られた知見やこれまで行ってきたBERTをベースとした検討を統合して、「Attention機構による著者推定が行われるメカニズムの解明」という明らかにしたい問いについて、これまで研究の成果を用いてまとめる。さらに、それらの成果を用いて、人間が実際に実行可能な推定フローについても具体的に検討していく。その際、計量文献学や統計解析をベースとした古典的な推定手法などとの考え方の違いについても考慮に入れる。

報告書

(2件)

2023 実施状況報告書
2022 実施状況報告書

研究成果
(3件)

すべて 2024 2023

すべて学会発表 (3件) (うち国際学会 1件)

[学会発表] 著者識別モデルの LoRA による注目単語の変化に関する考察2024
- 著者名/発表者名
  櫻井航、浅野雅人、井元大輔、本間正勝、黒沢健至
- 学会等名
  情報処理学会第86回全国大会
- 関連する報告書
  2023 実施状況報告書
[学会発表] TransformerとTF-IDFを用いた単語による日本語文章の著者識別2023
- 著者名/発表者名
  櫻井航、浅野雅人、井元大輔、本間正勝、黒沢健至
- 学会等名
  第29回日本法科学技術学会全国大会
- 関連する報告書
  2023 実施状況報告書
[学会発表] Efficient Authorship Attribution Method Using Ensemble Models Built by Knowledge Distillation2023
- 著者名/発表者名
  Wataru Sakurai, Masato Asano, Daisuke Imoto, Masakatsu Honma, Kenji Kurosawa
- 学会等名
  2023 the 9th International Conference on Computer and Communications (ICCC)
- 関連する報告書
  2023 実施状況報告書
- 国際学会

Attention機構を用いた著者推定のメカニズム解明

研究代表者

櫻井 航 科学警察研究所, 法科学第二部, 研究員 (50960803)

2,860千円 (直接経費: 2,200千円、間接経費: 660千円)

現在までの達成度 (区分)

理由

報告書

研究成果

[学会発表] 著者識別モデルの LoRA による注目単語の変化に関する考察2024

著者名/発表者名

学会等名

関連する報告書

[学会発表] TransformerとTF-IDFを用いた単語による日本語文章の著者識別2023

著者名/発表者名

学会等名

関連する報告書

[学会発表] Efficient Authorship Attribution Method Using Ensemble Models Built by Knowledge Distillation2023

著者名/発表者名

学会等名

関連する報告書

櫻井航科学警察研究所, 法科学第二部, 研究員 (50960803)