ディジタルフォレンジクスのための日本語著者識別システムに関する研究開発

研究課題

研究課題/領域番号	23K11107
研究種目	基盤研究(C)
配分区分	基金
応募区分	一般
審査区分	小区分60070:情報セキュリティ関連
研究機関	目白大学
研究代表者	財津亘目白大学, 心理学部, 准教授 (70881093)
研究分担者	柘植覚大同大学, 情報学部, 教授 (00325250) 稲葉光行立命館大学, 政策科学部, 教授 (80309096)
研究期間 (年度)	2023-04-01 – 2027-03-31
研究課題ステータス	交付 (2023年度)
配分額 *注記	4,550千円 (直接経費: 3,500千円、間接経費: 1,050千円) 2026年度: 520千円 (直接経費: 400千円、間接経費: 120千円) 2025年度: 780千円 (直接経費: 600千円、間接経費: 180千円) 2024年度: 2,080千円 (直接経費: 1,600千円、間接経費: 480千円) 2023年度: 1,170千円 (直接経費: 900千円、間接経費: 270千円)
キーワード	ディジタルフォレンジクス / 著者識別 / テキストマイニング / 深層学習 / 尤度比 / 生成AI / ChatGPT / サイバー犯罪
研究開始時の研究の概要	本研究では、犯罪に関与するテキストの書き手を特定する「著者識別」をテーマに、法科学での運用を前提とした『日本語著者識別システムの確立』を目指す。システム確立に向けては「法科学」「自然言語処理・機械学習」「言語学・テキストマイニング」の各々に焦点を置いた学術的問いを考察するとともに、従来の著者識別技術の問題点を整理し、証拠として更なる信頼性・受容性を高める方法を検証する。本研究は、法科学における「科学的手法への移行」といったパラダイムシフトに貢献するとともに、刑事裁判における判決の正確性（冤罪の防止）や迅速性の向上、ディジタルフォレンジクス技術の新たな開拓、刑事司法制度の信用担保にも繋がる。
研究実績の概要	本研究は、サイバー犯罪をはじめとする犯罪現場に遺留した文字情報（テキスト）を基に書き手を特定する「著者識別」をテーマに、法科学での運用を前提とした『日本語著者識別システムの確立』を目指している。初年度(2023年度)は、本システムの構築に向けて、機械学習や深層学習の技術を試行するための実験環境の構築に専念することとした。著者識別においては、犯罪現場に遺留された書き手が不明であるテキスト、またそれと照らし合わせるために、被疑者等が記載したことが明確な対照用のテキストが必要となるが、通常両者はトピックなど内容が異なることから、まずは本システムを試作する際に必要となるテキストのサンプルの収集およびその妥当性の検討を行った。加えて、近年ChatGPTをはじめとする生成AIによる文章作成が社会的に問題視されてきているが、本システムでは「人」が記載した文章であることが前提となることから、試作の際に使用するテキストが生成AIによる文章ではないことを担保するための研究を進め、人の文章とChatGPTの文章の判別がある程度可能なことを確認した。上記テキストのサンプル検討とともに、日本語大規模言語モデルを『現代日本語書き言葉均衡コーパス』でファインチューニングしたシステムの実証研究を実施している。同時に、一般的に広く使用されている機械学習及び文体特徴量に基づいたシステムをベースラインとして構築し、その実証実験も進めている。予備実験の段階ではあるが、深層学習システム、機械学習ベースラインシステムとも同程度の性能を発揮しており、更なる性能向上に向けて調整中である。
現在までの達成度 (区分)	現在までの達成度 (区分) 2: おおむね順調に進展している理由本システムの根幹技術となる深層学習や尤度比によるプロトタイプの検討結果が良好であったことから、今後はさらにモデルを洗練させ、精度向上に期待ができると考えられたため。
今後の研究の推進方策	引き続き、テキストサンプルの収集と現在使用しているコーパスとは異なるコーパスを使い、コーパス間の特性の違いが著者識別へどのような影響を及ぼすのかについて検討すると同時に、本システムの脅威となりうる生成AIの文章の判別に関する研究を進める。加えて、本システムの精度向上を目指すこととしたい。

報告書

(1件)

2023 実施状況報告書

研究成果
(3件)

すべて 2024 2023 その他

すべて国際共同研究 (1件) 雑誌論文 (1件) (うち国際共著 1件、査読あり 1件、オープンアクセス 1件) 学会発表 (1件) (うち国際学会 1件)

[国際共同研究] Australian National University(オーストラリア)
- 関連する報告書
  2023 実施状況報告書
[雑誌論文] Can we spot fake public comments generated by ChatGPT(-3.5, -4)?: Japanese stylometric analysis expose emulation created by one-shot learning2024
- 著者名/発表者名
  Zaitsu Wataru、Jin Mingzhe、Ishihara Shunichi、Tsuge Satoru、Inaba Mitsuyuki
- 雑誌名
  
  PLOS ONE
  
  巻: 19 号: 3 ページ: 1-10
- DOI
  10.1371/journal.pone.0299031
- 関連する報告書
  2023 実施状況報告書
- 査読あり / オープンアクセス / 国際共著
[学会発表] Estimating likelihood ratios for authorship evidence with a deep-learning-based text representation2023
- 著者名/発表者名
  Satoru Tsuge and Shunichi Ishihara
- 学会等名
  The 16th Biennial Conference of the International Association for Forensic and Legal Linguistics
- 関連する報告書
  2023 実施状況報告書
- 国際学会

ディジタルフォレンジクスのための日本語著者識別システムに関する研究開発

研究代表者

財津 亘 目白大学, 心理学部, 准教授 (70881093)

4,550千円 (直接経費: 3,500千円、間接経費: 1,050千円)

現在までの達成度 (区分)

理由

報告書

研究成果

[国際共同研究] Australian National University(オーストラリア)

関連する報告書

[雑誌論文] Can we spot fake public comments generated by ChatGPT(-3.5, -4)?: Japanese stylometric analysis expose emulation created by one-shot learning2024

著者名/発表者名

雑誌名

DOI

関連する報告書

[学会発表] Estimating likelihood ratios for authorship evidence with a deep-learning-based text representation2023

著者名/発表者名

学会等名

関連する報告書

財津亘目白大学, 心理学部, 准教授 (70881093)