研究課題
現代社会において、人間とAIが自然にインタラクションや協働を行うためには、ユーザーの文脈を考慮し柔軟に対応できる自然言語処理モデルが不可欠である。このようなモデルは、ユーザーのニーズに応じた対話を可能にし、AIとユーザー間のコミュニケーションをより円滑にすると考えられる。しかし、現時点では「ベンチマーク上での高い精度と、動的な文脈が重要になるアプリケーションでの低い精度とのギャップ」が問題となっている。つまり、AIは一定の文脈でのパフォーマンスは向上しているが、より広範で複雑な状況への対応能力にはまだ限界がある。その解決策として、本研究課題では、現実世界のように常に状況や文脈が変化する環境に対応可能なマルチモーダルモデルを提案している。このモデルは、言語情報だけでなく、視覚情報や聴覚情報を統合的かつ逐次的に学習する能力を持ち、AIがユーザーの現在の状況をより深く理解し、それに基づいた適切な対応を提供することを可能にする。本プロジェクトの2年目では、状況や文脈が変化する環境をベンチマークとしてRealTimeQAを構築し、またマルチモダリティの対象として、画像と抽象的な記号処理を含むダイアグラムの理解に着手した研究が進行中である。それ以外にも、大規模言語モデルの日本語対応や人とAIの創作活動におけるインタラクションに関する研究など、応用の可能性についても成果を上げている。研究成果の発表としては、国際会議での論文採択6件、国内会議14件、国内外の招待講演10件がある。
2: おおむね順調に進展している
2年目は、これまでの取り組みを論文やソフトウェア、データセット、国際会議での発表など、様々な形で成果を発表することができた。2023年は自然言語処理分野において大規模言語モデルの高性能化やリリースが研究者の予想を超える速度で進んだため、本研究課題の当初のスコープの一部がある程度解決された。これを踏まえ、単純な画像を用いたマルチモダリティだけでなく、抽象的・記号処理的な概念を含むダイアグラム画像の理解など、より挑戦的な課題にも柔軟に対応し、予備実験を開始することができた。また、モデルの動的な文脈への対応力を測るベンチマークとしてRealtimeQAプロジェクトを立ち上げ、国際会議で発表した。具体的には、世界の最新の出来事を半自動で抽出し、大規模言語モデルの性能評価用のフォーマットを自動で構築するものである。これにより、既存モデルの比較評価や新たに登場するモデルへの対応、さらに評価基盤とその結果の継続的な計測が行われている。
昨年度から引き続き、大規模言語モデルの高性能化やAPIなどのリリースが分野全体で飛躍的に進んでおり、それらの技術を素早く柔軟に活用することが重要であると考えられる。最終年度では、マルチモダリティの中でも特にダイアグラム理解や大規模言語モデルの応用(人間とのインタラクション)に焦点を当てつつ、本研究の知見の社会実装や応用を推進する。
実験に必要なGPUサーバーの導入にあたり、半導体不足による影響および、初年度に研究室建物における電源c 調査のための時間が掛かったため、サーバー導入スケジュールがが予定より遅れている。現在、順次サーバーを導入しつつ、クラウド環境も併用する予定である。
すべて 2024 2023 その他
すべて 国際共同研究 (2件) 雑誌論文 (6件) (うち国際共著 3件、 査読あり 6件、 オープンアクセス 6件) 学会発表 (14件) 備考 (1件) 学会・シンポジウム開催 (1件)
Thirty-seventh Conference on Neural Information Processing Systems Datasets and Benchmarks Track
巻: 0 ページ: 0
Findings of the Association for Computational Linguistics: EMNLP 2023
巻: 0 ページ: 3650--3661
10.18653/v1/2023.findings-emnlp.236
Proceedings of the 61st Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers)
巻: 0 ページ: 9614--9630
10.18653/v1/2023.acl-long.535
巻: 0 ページ: 2031--2047
10.18653/v1/2023.acl-long.113
Proceedings of the 2023 Conference of the European Chapter of the Association for Computational Linguistics
巻: 0 ページ: 1351--1362
10.18653/v1/2023.eacl-main.98
Findings of the Association for Computational Linguistics: EACL 2023
巻: 0 ページ: 1154--1162
10.18653/v1/2023.findings-eacl.86
https://realtimeqa.github.io/