2023 Fiscal Year Research-status Report

Detection and Analysis of Automatically Generated Text according to the Applications

Research Project

Project/Area Number	23K11767
Research Institution	Shizuoka University
Principal Investigator	綱川隆司静岡大学, 情報学部, 講師 (30611214)
Project Period (FY)	2023-04-01 – 2026-03-31
Keywords	自動生成テキスト / 生成AI / 大規模言語モデル / ChatGPT / 自動生成検出 / 自然言語処理
Outline of Annual Research Achievements	本研究は、ChatGPT等のテキスト生成AIにより生成されたテキストの検出にあたり、検出目的を考慮したテキストの分析を行うことを目的としている。研究計画に基づき、本年度は様々な応用場面を考慮した上でそこで生じる利点や解決すべき課題について検討・類型化し、課題解決に向けた技術の洗い出しを行った。テキストを含む生成AIは急速な開発が進み、生成AIを文章執筆支援の目的で用いることや、生成AIを利用していることを明示した上で応用システムに組み込むこと等といった、生成AIの効果的な利用範囲が広がっている。一方、生成AIの利用が問題視される分野として著作権侵害やアカデミック・インテグリティの侵害等が挙げられ、それらの利用シーンにおいて電子透かしの利用や利用生成AIモデルの判別といった対策の有効性、実現性について整理を行った。また生成テキスト検出の先行研究において語の出現確率に基づく検出指標を視覚化するGLTR [1] をベースに日本語のAI生成テキスト実証実験を行い、視覚化された結果からAIにより生成された部分を推定した際の性能を検証した。さらに、性能の高い生成AIモデルほど人間が作成したテキストとの判別が困難になることから、高精度なAI生成テキスト検出モデルは生成AIモデルの評価指標の一つになりうることが示唆された。 [1] S. Gehrmann, H. Strobelt, A. Rush, "GLTR: statistical detection and visualization of generated text," in Proc. of the 57th Annual Meeting of the ACL: System Demonstrations, pp.111-116, 10.18653/v1/P19-3019, (2019).
Current Status of Research Progress	Current Status of Research Progress 2: Research has progressed on the whole more than it was originally planned. Reason 当初、初年度に実施する計画である自動生成テキスト検出の応用場面検討および類型化については、計画通り実施した上で日本語における生成テキストAI検出の視覚化を行っており、おおむね順調に進んでいると判断している。
Strategy for Future Research Activity	今後の研究課題として、類型化した応用場面のうち一つは論文執筆における不正な生成AI利用の検出、もう一つは生成AIモデルの電子透かし技術による検出、モデル判別、電子透かしへの攻撃可能性に関する研究テーマを設定し、それぞれの課題において生成AIモデルを利用した実証実験を行う。生成AIモデルはその利用に関する法的側面の整備等の様々な環境変化が予想されるため、それらの変化に応じた柔軟な研究課題の検討を継続する。
Causes of Carryover	主に、予定していた学術会議への参加がオンラインによる参加になったことにより旅費が不要となったことによる。次年度使用額は主に深層学習クラウド環境や生成AIサービス利用料等に充当する計画である。