Project/Area Number |
23K11767
|
Research Category |
Grant-in-Aid for Scientific Research (C)
|
Allocation Type | Multi-year Fund |
Section | 一般 |
Review Section |
Basic Section 90020:Library and information science, humanistic and social informatics-related
|
Research Institution | Shizuoka University |
Principal Investigator |
綱川 隆司 静岡大学, 情報学部, 講師 (30611214)
|
Project Period (FY) |
2023-04-01 – 2026-03-31
|
Project Status |
Granted (Fiscal Year 2023)
|
Budget Amount *help |
¥4,810,000 (Direct Cost: ¥3,700,000、Indirect Cost: ¥1,110,000)
Fiscal Year 2025: ¥780,000 (Direct Cost: ¥600,000、Indirect Cost: ¥180,000)
Fiscal Year 2024: ¥780,000 (Direct Cost: ¥600,000、Indirect Cost: ¥180,000)
Fiscal Year 2023: ¥3,250,000 (Direct Cost: ¥2,500,000、Indirect Cost: ¥750,000)
|
Keywords | 自動生成テキスト / 生成AI / 大規模言語モデル / ChatGPT / 自動生成検出 / 自然言語処理 |
Outline of Research at the Start |
ChatGPTをはじめとするテキスト自動生成技術の性能は近年急速に向上し、その品質は人間が読んでも遜色ない水準にまで達している。一方で、本来人間が自ら書くべき文章をコンピュータに書かせた上、それを明示しないといった不適切な利用も懸念される状況にある。これに対し、自動生成テキスト検出を行う手法が検討され、検出精度はある程度高いことが示されている。しかしながら、実際に検出手法を適用する状況では根拠箇所の提示といった様々なテキスト分析が必要になることが想定される。本研究ではテキスト自動生成技術が利用される場面を予め整理・類型化し、それぞれの類型に対し必要となるテキスト分析手法を検討・実証する。
|
Outline of Annual Research Achievements |
本研究は、ChatGPT等のテキスト生成AIにより生成されたテキストの検出にあたり、検出目的を考慮したテキストの分析を行うことを目的としている。研究計画に基づき、本年度は様々な応用場面を考慮した上でそこで生じる利点や解決すべき課題について検討・類型化し、課題解決に向けた技術の洗い出しを行った。 テキストを含む生成AIは急速な開発が進み、生成AIを文章執筆支援の目的で用いることや、生成AIを利用していることを明示した上で応用システムに組み込むこと等といった、生成AIの効果的な利用範囲が広がっている。一方、生成AIの利用が問題視される分野として著作権侵害やアカデミック・インテグリティの侵害等が挙げられ、それらの利用シーンにおいて電子透かしの利用や利用生成AIモデルの判別といった対策の有効性、実現性について整理を行った。 また生成テキスト検出の先行研究において語の出現確率に基づく検出指標を視覚化するGLTR [1] をベースに日本語のAI生成テキスト実証実験を行い、視覚化された結果からAIにより生成された部分を推定した際の性能を検証した。さらに、性能の高い生成AIモデルほど人間が作成したテキストとの判別が困難になることから、高精度なAI生成テキスト検出モデルは生成AIモデルの評価指標の一つになりうることが示唆された。 [1] S. Gehrmann, H. Strobelt, A. Rush, "GLTR: statistical detection and visualization of generated text," in Proc. of the 57th Annual Meeting of the ACL: System Demonstrations, pp.111-116, 10.18653/v1/P19-3019, (2019).
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
当初、初年度に実施する計画である自動生成テキスト検出の応用場面検討および類型化については、計画通り実施した上で日本語における生成テキストAI検出の視覚化を行っており、おおむね順調に進んでいると判断している。
|
Strategy for Future Research Activity |
今後の研究課題として、類型化した応用場面のうち一つは論文執筆における不正な生成AI利用の検出、もう一つは生成AIモデルの電子透かし技術による検出、モデル判別、電子透かしへの攻撃可能性に関する研究テーマを設定し、それぞれの課題において生成AIモデルを利用した実証実験を行う。生成AIモデルはその利用に関する法的側面の整備等の様々な環境変化が予想されるため、それらの変化に応じた柔軟な研究課題の検討を継続する。
|