• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to previous page

Development of Japanese Authorship Attribution System for Digital Forensics

Research Project

Project/Area Number 23K11107
Research Category

Grant-in-Aid for Scientific Research (C)

Allocation TypeMulti-year Fund
Section一般
Review Section Basic Section 60070:Information security-related
Research InstitutionMejiro University

Principal Investigator

財津 亘  目白大学, 心理学部, 准教授 (70881093)

Co-Investigator(Kenkyū-buntansha) 柘植 覚  大同大学, 情報学部, 教授 (00325250)
稲葉 光行  立命館大学, 政策科学部, 教授 (80309096)
Project Period (FY) 2023-04-01 – 2027-03-31
Project Status Granted (Fiscal Year 2023)
Budget Amount *help
¥4,550,000 (Direct Cost: ¥3,500,000、Indirect Cost: ¥1,050,000)
Fiscal Year 2026: ¥520,000 (Direct Cost: ¥400,000、Indirect Cost: ¥120,000)
Fiscal Year 2025: ¥780,000 (Direct Cost: ¥600,000、Indirect Cost: ¥180,000)
Fiscal Year 2024: ¥2,080,000 (Direct Cost: ¥1,600,000、Indirect Cost: ¥480,000)
Fiscal Year 2023: ¥1,170,000 (Direct Cost: ¥900,000、Indirect Cost: ¥270,000)
Keywordsディジタルフォレンジクス / 著者識別 / テキストマイニング / 深層学習 / 尤度比 / 生成AI / ChatGPT / サイバー犯罪
Outline of Research at the Start

本研究では、犯罪に関与するテキストの書き手を特定する「著者識別」をテーマに、法科学での運用を前提とした『日本語著者識別システムの確立』を目指す。システム確立に向けては「法科学」「自然言語処理・機械学習」「言語学・テキストマイニング」の各々に焦点を置いた学術的問いを考察するとともに、従来の著者識別技術の問題点を整理し、証拠として更なる信頼性・受容性を高める方法を検証する。本研究は、法科学における「科学的手法への移行」といったパラダイムシフトに貢献するとともに、刑事裁判における判決の正確性(冤罪の防止)や迅速性の向上、ディジタルフォレンジクス技術の新たな開拓、刑事司法制度の信用担保にも繋がる。

Outline of Annual Research Achievements

本研究は、サイバー犯罪をはじめとする犯罪現場に遺留した文字情報(テキスト)を基に書き手を特定する「著者識別」をテーマに、法科学での運用を前提とした『日本語著者識別システムの確立』を目指している。
初年度(2023年度)は、本システムの構築に向けて、機械学習や深層学習の技術を試行するための実験環境の構築に専念することとした。著者識別においては、犯罪現場に遺留された書き手が不明であるテキスト、またそれと照らし合わせるために、被疑者等が記載したことが明確な対照用のテキストが必要となるが、通常両者はトピックなど内容が異なることから、まずは本システムを試作する際に必要となるテキストのサンプルの収集およびその妥当性の検討を行った。加えて、近年ChatGPTをはじめとする生成AIによる文章作成が社会的に問題視されてきているが、本システムでは「人」が記載した文章であることが前提となることから、試作の際に使用するテキストが生成AIによる文章ではないことを担保するための研究を進め、人の文章とChatGPTの文章の判別がある程度可能なことを確認した。
上記テキストのサンプル検討とともに、日本語大規模言語モデルを『現代日本語書き言葉均衡コーパス』でファインチューニングしたシステムの実証研究を実施している。同時に、一般的に広く使用されている機械学習及び文体特徴量に基づいたシステムをベースラインとして構築し、その実証実験も進めている。予備実験の段階ではあるが、深層学習システム、機械学習ベースラインシステムとも同程度の性能を発揮しており、更なる性能向上に向けて調整中である。

Current Status of Research Progress
Current Status of Research Progress

2: Research has progressed on the whole more than it was originally planned.

Reason

本システムの根幹技術となる深層学習や尤度比によるプロトタイプの検討結果が良好であったことから、今後はさらにモデルを洗練させ、精度向上に期待ができると考えられたため。

Strategy for Future Research Activity

引き続き、テキストサンプルの収集と現在使用しているコーパスとは異なるコーパスを使い、コーパス間の特性の違いが著者識別へどのような影響を及ぼすのかについて検討すると同時に、本システムの脅威となりうる生成AIの文章の判別に関する研究を進める。加えて、本システムの精度向上を目指すこととしたい。

Report

(1 results)
  • 2023 Research-status Report
  • Research Products

    (3 results)

All 2024 2023 Other

All Int'l Joint Research (1 results) Journal Article (1 results) (of which Int'l Joint Research: 1 results,  Peer Reviewed: 1 results,  Open Access: 1 results) Presentation (1 results) (of which Int'l Joint Research: 1 results)

  • [Int'l Joint Research] Australian National University(オーストラリア)

    • Related Report
      2023 Research-status Report
  • [Journal Article] Can we spot fake public comments generated by ChatGPT(-3.5, -4)?: Japanese stylometric analysis expose emulation created by one-shot learning2024

    • Author(s)
      Zaitsu Wataru、Jin Mingzhe、Ishihara Shunichi、Tsuge Satoru、Inaba Mitsuyuki
    • Journal Title

      PLOS ONE

      Volume: 19 Issue: 3 Pages: 1-10

    • DOI

      10.1371/journal.pone.0299031

    • Related Report
      2023 Research-status Report
    • Peer Reviewed / Open Access / Int'l Joint Research
  • [Presentation] Estimating likelihood ratios for authorship evidence with a deep-learning-based text representation2023

    • Author(s)
      Satoru Tsuge and Shunichi Ishihara
    • Organizer
      The 16th Biennial Conference of the International Association for Forensic and Legal Linguistics
    • Related Report
      2023 Research-status Report
    • Int'l Joint Research

URL: 

Published: 2023-04-13   Modified: 2024-12-25  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi