研究課題/領域番号 |
21K21343
|
研究種目 |
国際共同研究加速基金(帰国発展研究)
|
配分区分 | 基金 |
審査区分 |
情報学
|
研究機関 | 東北大学 |
研究代表者 |
坂口 慶祐 東北大学, 情報科学研究科, 准教授 (20934087)
|
研究期間 (年度) |
2022-02-18 – 2025-03-31
|
研究課題ステータス |
交付 (2023年度)
|
配分額 *注記 |
57,070千円 (直接経費: 43,900千円、間接経費: 13,170千円)
|
キーワード | 自然言語処理 / 大規模言語モデル / マルチモーダル / 深層学習 |
研究開始時の研究の概要 |
深層学習による自然言語処理の大きな進展が見られる一方、現実世界のように常に変化する文脈情報が重要なタスクには適応できていない。本研究では、現実世界のように文脈が変化する環境において、言語情報だけでなく、視覚情報、聴覚情報を統合的かつ逐次的に学習するマルチモーダルモデルを提案し実装する。
|
研究実績の概要 |
現代社会において、人間とAIが自然にインタラクションや協働を行うためには、ユーザーの文脈を考慮し柔軟に対応できる自然言語処理モデルが不可欠である。このようなモデルは、ユーザーのニーズに応じた対話を可能にし、AIとユーザー間のコミュニケーションをより円滑にすると考えられる。しかし、現時点では「ベンチマーク上での高い精度と、動的な文脈が重要になるアプリケーションでの低い精度とのギャップ」が問題となっている。つまり、AIは一定の文脈でのパフォーマンスは向上しているが、より広範で複雑な状況への対応能力にはまだ限界がある。
その解決策として、本研究課題では、現実世界のように常に状況や文脈が変化する環境に対応可能なマルチモーダルモデルを提案している。このモデルは、言語情報だけでなく、視覚情報や聴覚情報を統合的かつ逐次的に学習する能力を持ち、AIがユーザーの現在の状況をより深く理解し、それに基づいた適切な対応を提供することを可能にする。
本プロジェクトの2年目では、状況や文脈が変化する環境をベンチマークとしてRealTimeQAを構築し、またマルチモダリティの対象として、画像と抽象的な記号処理を含むダイアグラムの理解に着手した研究が進行中である。それ以外にも、大規模言語モデルの日本語対応や人とAIの創作活動におけるインタラクションに関する研究など、応用の可能性についても成果を上げている。研究成果の発表としては、国際会議での論文採択6件、国内会議14件、国内外の招待講演10件がある。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
2年目は、これまでの取り組みを論文やソフトウェア、データセット、国際会議での発表など、様々な形で成果を発表することができた。 2023年は自然言語処理分野において大規模言語モデルの高性能化やリリースが研究者の予想を超える速度で進んだため、本研究課題の当初のスコープの一部がある程度解決された。これを踏まえ、単純な画像を用いたマルチモダリティだけでなく、抽象的・記号処理的な概念を含むダイアグラム画像の理解など、より挑戦的な課題にも柔軟に対応し、予備実験を開始することができた。 また、モデルの動的な文脈への対応力を測るベンチマークとしてRealtimeQAプロジェクトを立ち上げ、国際会議で発表した。具体的には、世界の最新の出来事を半自動で抽出し、大規模言語モデルの性能評価用のフォーマットを自動で構築するものである。これにより、既存モデルの比較評価や新たに登場するモデルへの対応、さらに評価基盤とその結果の継続的な計測が行われている。
|
今後の研究の推進方策 |
昨年度から引き続き、大規模言語モデルの高性能化やAPIなどのリリースが分野全体で飛躍的に進んでおり、それらの技術を素早く柔軟に活用することが重要であると考えられる。 最終年度では、マルチモダリティの中でも特にダイアグラム理解や大規模言語モデルの応用(人間とのインタラクション)に焦点を当てつつ、本研究の知見の社会実装や応用を推進する。
|