本研究では、話者認識(speaker recognition)技術の精度向上を初期の動機として、音声に含まれる言語情報(テキスト情報)に表れる個人性の利用可能性について検討を行った。研究成果は、音声通話やネット投稿のなりすましのような犯罪の防止、さらには生成AIの悪用防止などへの応用が期待される。 当年度は、ChatGPTの登場以降目覚ましい進歩を見せる生成AI (大規模言語モデル; LLM)に重点を置き、LLMが生成するテキストの品質、特に人間との差異について明らかにする実験を行った。タスクの一例としてWebサイトのコンテンツ生成を設定し、ユーザによる主観評価を模擬する予測モデルを構築して、GPT-3.5等のLLMが生成したテキストコンテンツの品質をを評価した結果、10段階評価の8点という高い得点を得た。この結果は人間には若干劣るものの、近い将来LLMが人間に追いつき追い越す可能性があることを示唆する。また、LLMを含む大規模な基盤モデルの振舞いを明らかにするというややスコープを広げた課題意識のもとで、Vision and Languageモデルが生成するテキスト情報の分析も行い、画像分類課題との関連性について考察を行った。一連の実験の効率化のために、GPU 1基(NVIDIA RTX A6000)を既設サーバに追加導入した。 研究期間全体を通して、当初は小説からその筆者のを予測するというコントロールされたタスクでRNNやTransformer、さらに大規模データで事前学習されたBERTなどのモデルを用いてテキストから筆者の個人性を抽出する試みを行ったが、一連のGPT系モデルの進歩に伴い、生成AIと人間の違いを明らかにする方向にシフトした。これまでに国内会議発表4件、投稿1件、国際会議投稿1件の成果を得た。
|