現実世界の逐次的環境変化に協調的に適応するマルチモーダル自然言語理解モデル
Project/Area Number |
21K21343
|
Research Category |
Fund for the Promotion of Joint International Research (Home-Returning Researcher Development Research)
|
Allocation Type | Multi-year Fund |
Review Section |
Informatics
|
Research Institution | Tohoku University |
Principal Investigator |
坂口 慶祐 東北大学, 情報科学研究科, 准教授 (20934087)
|
Project Period (FY) |
2022-02-18 – 2025-03-31
|
Project Status |
Granted (Fiscal Year 2023)
|
Budget Amount *help |
¥57,070,000 (Direct Cost: ¥43,900,000、Indirect Cost: ¥13,170,000)
|
Keywords | 自然言語処理 / 大規模言語モデル / マルチモーダル / 深層学習 |
Outline of Research at the Start |
深層学習による自然言語処理の大きな進展が見られる一方、現実世界のように常に変化する文脈情報が重要なタスクには適応できていない。本研究では、現実世界のように文脈が変化する環境において、言語情報だけでなく、視覚情報、聴覚情報を統合的かつ逐次的に学習するマルチモーダルモデルを提案し実装する。
|
Outline of Annual Research Achievements |
現代社会において、人間とAIが自然にインタラクションや協働を行うためには、ユーザーの文脈を考慮し柔軟に対応できる自然言語処理モデルが不可欠である。このようなモデルは、ユーザーのニーズに応じた対話を可能にし、AIとユーザー間のコミュニケーションをより円滑にすると考えられる。しかし、現時点では「ベンチマーク上での高い精度と、動的な文脈が重要になるアプリケーションでの低い精度とのギャップ」が問題となっている。つまり、AIは一定の文脈でのパフォーマンスは向上しているが、より広範で複雑な状況への対応能力にはまだ限界がある。
その解決策として、本研究課題では、現実世界のように常に状況や文脈が変化する環境に対応可能なマルチモーダルモデルを提案している。このモデルは、言語情報だけでなく、視覚情報や聴覚情報を統合的かつ逐次的に学習する能力を持ち、AIがユーザーの現在の状況をより深く理解し、それに基づいた適切な対応を提供することを可能にする。
本プロジェクトの2年目では、状況や文脈が変化する環境をベンチマークとしてRealTimeQAを構築し、またマルチモダリティの対象として、画像と抽象的な記号処理を含むダイアグラムの理解に着手した研究が進行中である。それ以外にも、大規模言語モデルの日本語対応や人とAIの創作活動におけるインタラクションに関する研究など、応用の可能性についても成果を上げている。研究成果の発表としては、国際会議での論文採択6件、国内会議14件、国内外の招待講演10件がある。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
2年目は、これまでの取り組みを論文やソフトウェア、データセット、国際会議での発表など、様々な形で成果を発表することができた。 2023年は自然言語処理分野において大規模言語モデルの高性能化やリリースが研究者の予想を超える速度で進んだため、本研究課題の当初のスコープの一部がある程度解決された。これを踏まえ、単純な画像を用いたマルチモダリティだけでなく、抽象的・記号処理的な概念を含むダイアグラム画像の理解など、より挑戦的な課題にも柔軟に対応し、予備実験を開始することができた。 また、モデルの動的な文脈への対応力を測るベンチマークとしてRealtimeQAプロジェクトを立ち上げ、国際会議で発表した。具体的には、世界の最新の出来事を半自動で抽出し、大規模言語モデルの性能評価用のフォーマットを自動で構築するものである。これにより、既存モデルの比較評価や新たに登場するモデルへの対応、さらに評価基盤とその結果の継続的な計測が行われている。
|
Strategy for Future Research Activity |
昨年度から引き続き、大規模言語モデルの高性能化やAPIなどのリリースが分野全体で飛躍的に進んでおり、それらの技術を素早く柔軟に活用することが重要であると考えられる。 最終年度では、マルチモダリティの中でも特にダイアグラム理解や大規模言語モデルの応用(人間とのインタラクション)に焦点を当てつつ、本研究の知見の社会実装や応用を推進する。
|
Report
(2 results)
Research Products
(35 results)
-
-
-
-
[Journal Article] RealTime QA: What's the Answer Right Now?2023
Author(s)
Jungo Kasai, Keisuke Sakaguchi, Yoichi Takahashi, Ronan Le Bras, Akari Asai, Xinyan Velocity Yu, Dragomir Radev, Noah A. Smith, Yejin Choi, Kentaro Inui
-
Journal Title
Thirty-seventh Conference on Neural Information Processing Systems Datasets and Benchmarks Track
Volume: 0
Pages: 0-0
Related Report
Peer Reviewed / Open Access / Int'l Joint Research
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
[Presentation] Hagi bot: LLMを用いた対話状態追跡と人間らしい振る舞いで自然な議論を行うマルチモーダル対話システム2023
Author(s)
中野雄斗, 野末慎之介, 穀田一真, 有山知希, 佐藤魁, 曾根周作, 亀井遼平, 謝素春, 成田風香, 守屋彰二, 赤間怜奈, 松林優一郎, 坂口慶祐
Organizer
人工知能学会研究会資料 言語・音声理解と対話処理研究会
Related Report
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-