研究実績の概要 |
本研究は、ChatGPT等のテキスト生成AIにより生成されたテキストの検出にあたり、検出目的を考慮したテキストの分析を行うことを目的としている。研究計画に基づき、本年度は様々な応用場面を考慮した上でそこで生じる利点や解決すべき課題について検討・類型化し、課題解決に向けた技術の洗い出しを行った。 テキストを含む生成AIは急速な開発が進み、生成AIを文章執筆支援の目的で用いることや、生成AIを利用していることを明示した上で応用システムに組み込むこと等といった、生成AIの効果的な利用範囲が広がっている。一方、生成AIの利用が問題視される分野として著作権侵害やアカデミック・インテグリティの侵害等が挙げられ、それらの利用シーンにおいて電子透かしの利用や利用生成AIモデルの判別といった対策の有効性、実現性について整理を行った。 また生成テキスト検出の先行研究において語の出現確率に基づく検出指標を視覚化するGLTR [1] をベースに日本語のAI生成テキスト実証実験を行い、視覚化された結果からAIにより生成された部分を推定した際の性能を検証した。さらに、性能の高い生成AIモデルほど人間が作成したテキストとの判別が困難になることから、高精度なAI生成テキスト検出モデルは生成AIモデルの評価指標の一つになりうることが示唆された。 [1] S. Gehrmann, H. Strobelt, A. Rush, "GLTR: statistical detection and visualization of generated text," in Proc. of the 57th Annual Meeting of the ACL: System Demonstrations, pp.111-116, 10.18653/v1/P19-3019, (2019).
|