研究課題/領域番号 |
23K11107
|
研究機関 | 目白大学 |
研究代表者 |
財津 亘 目白大学, 心理学部, 准教授 (70881093)
|
研究分担者 |
柘植 覚 大同大学, 情報学部, 教授 (00325250)
稲葉 光行 立命館大学, 政策科学部, 教授 (80309096)
|
研究期間 (年度) |
2023-04-01 – 2027-03-31
|
キーワード | ディジタルフォレンジクス / 著者識別 / テキストマイニング / 深層学習 / 尤度比 / 生成AI / ChatGPT / サイバー犯罪 |
研究実績の概要 |
本研究は、サイバー犯罪をはじめとする犯罪現場に遺留した文字情報(テキスト)を基に書き手を特定する「著者識別」をテーマに、法科学での運用を前提とした『日本語著者識別システムの確立』を目指している。 初年度(2023年度)は、本システムの構築に向けて、機械学習や深層学習の技術を試行するための実験環境の構築に専念することとした。著者識別においては、犯罪現場に遺留された書き手が不明であるテキスト、またそれと照らし合わせるために、被疑者等が記載したことが明確な対照用のテキストが必要となるが、通常両者はトピックなど内容が異なることから、まずは本システムを試作する際に必要となるテキストのサンプルの収集およびその妥当性の検討を行った。加えて、近年ChatGPTをはじめとする生成AIによる文章作成が社会的に問題視されてきているが、本システムでは「人」が記載した文章であることが前提となることから、試作の際に使用するテキストが生成AIによる文章ではないことを担保するための研究を進め、人の文章とChatGPTの文章の判別がある程度可能なことを確認した。 上記テキストのサンプル検討とともに、日本語大規模言語モデルを『現代日本語書き言葉均衡コーパス』でファインチューニングしたシステムの実証研究を実施している。同時に、一般的に広く使用されている機械学習及び文体特徴量に基づいたシステムをベースラインとして構築し、その実証実験も進めている。予備実験の段階ではあるが、深層学習システム、機械学習ベースラインシステムとも同程度の性能を発揮しており、更なる性能向上に向けて調整中である。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
本システムの根幹技術となる深層学習や尤度比によるプロトタイプの検討結果が良好であったことから、今後はさらにモデルを洗練させ、精度向上に期待ができると考えられたため。
|
今後の研究の推進方策 |
引き続き、テキストサンプルの収集と現在使用しているコーパスとは異なるコーパスを使い、コーパス間の特性の違いが著者識別へどのような影響を及ぼすのかについて検討すると同時に、本システムの脅威となりうる生成AIの文章の判別に関する研究を進める。加えて、本システムの精度向上を目指すこととしたい。
|
次年度使用額が生じた理由 |
2023年度当初、研究協力者であるオーストラリア国立大学の石原氏の来日を予定していたものであるが、次年度(2024年度)11月の日本法科学技術学会への参加として来日予定が変更となったため。
|