| Project/Area Number |
23K28148
|
| Project/Area Number (Other) |
23H03458 (2023)
|
| Research Category |
Grant-in-Aid for Scientific Research (B)
|
| Allocation Type | Multi-year Fund (2024) Single-year Grants (2023) |
| Section | 一般 |
| Review Section |
Basic Section 61030:Intelligent informatics-related
Basic Section 60030:Statistical science-related
Sections That Are Subject to Joint Review: Basic Section60030:Statistical science-related , Basic Section61030:Intelligent informatics-related
|
| Research Institution | Nara Institute of Science and Technology |
Principal Investigator |
上垣外 英剛 奈良先端科学技術大学院大学, 先端科学技術研究科, 准教授 (40817649)
|
| Co-Investigator(Kenkyū-buntansha) |
林 克彦 東京大学, 大学院総合文化研究科, 准教授 (50725794)
大内 啓樹 奈良先端科学技術大学院大学, 先端科学技術研究科, 准教授 (70825463)
渡辺 太郎 奈良先端科学技術大学院大学, 先端科学技術研究科, 教授 (90395038)
|
| Project Period (FY) |
2024-04-01 – 2026-03-31
|
| Project Status |
Granted (Fiscal Year 2024)
|
| Budget Amount *help |
¥15,340,000 (Direct Cost: ¥11,800,000、Indirect Cost: ¥3,540,000)
Fiscal Year 2025: ¥4,940,000 (Direct Cost: ¥3,800,000、Indirect Cost: ¥1,140,000)
Fiscal Year 2024: ¥4,940,000 (Direct Cost: ¥3,800,000、Indirect Cost: ¥1,140,000)
Fiscal Year 2023: ¥5,460,000 (Direct Cost: ¥4,200,000、Indirect Cost: ¥1,260,000)
|
| Keywords | 巨大言語モデル / 画像言語モデル / 知識グラフ / VIsion and Language / Large Language Model / LLM / LVLM / 大規模言語モデル / Knowledge Graph / 画像と言語の融合 / Vision and Language / Knowledge Base / 自然言語生成 / 事前学習済み言語モデル / 知識グラフの補完 / BERT |
| Outline of Research at the Start |
大規模言語モデル(LLM)は多様なタスクを扱うことが可能な一方、膨大なパラメータサイズにより学習コストが高いという課題が存在する。この課題のため、日々更新される知識を頻繁な学習によりLLMで扱うことは現実的ではない。このため、LLMにおいてデータストア中からの検索結果を利用するRetrieval-Augmented Generation (RAG)等の方法が利用されているが、これらで扱われるテキストデータには対応する構造的な知識に関する情報が含まれておらず、解釈性や制御性といった実用面での課題が存在する。本研究では知識グラフをデータストアの構造化に利用することによる上記課題の解決を目的とする。
|
| Outline of Annual Research Achievements |
本年度は昨年度に増して巨大言語モデル(LLM)が急速に進歩したこと、特にLLMが多様なモダリティを扱えるように拡張及び改良されていることを背景に、昨年度に基盤を整えた、マルチモーダル分野における言語モデルの利用に対する評価、特に画像と言語の融合タスクに焦点を当てた研究を継続した。画像を入力に用いることが可能なLarge-scale Vision Language Model (LVLM)を対象とした研究としては、昨年度に引き続き、自然言語から獲得された知識を利用する能力を測るためのタスクとして、芸術分野に関する画像に対する説明を出力するタスクを用いたLVLMの評価を行った。そして、この結果に基づく研究が自然言語処理分野のトップ国際会議の一つであるACL 2024に採択された。また英語のみを対象としていたこの研究を多言語に適用できるように拡張を行い、その成果を含む研究が同様に自然言語処理分野のトップ国際会議のFindingsであるNAACL 2025 Findingsに採択された。また動画を対象とした研究も実施し、舌の動きを捉えたMRI動画から発声される母音を予測することでLLMが舌、もしくは母音に関する知識を保有しているのかを明らかにする研究がNAACL 2025に採択された。このようなマルチモーダルを対象としたタスクと並列して、昨年度と同様、知識グラフまたは直接的にLLMの保有する知識を検証する研究についても実施した。具体的には事前学習済み言語モデル(PLM)における知識の推論能力を測るために漏洩が起きにくい知識グラフの推論データを作成する手法に関する研究が言語処理学会論文誌に採択され、優秀賞を受賞した。そして、LLMが持つ知識を外部から編集した場合に、LLMが出力される確信度の較正にどのような変化が生じるかについての研究を言語処理学会2025にて発表した。
|
| Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
昨年度に掲げた大規模言語モデル(LLM)および視覚言語モデル(LVLM)を用いた知識補完と推論の検証という計画は、概ね順調に進展している。特に、画像と自然言語の融合タスクにおいて、芸術作品に対する説明生成を通じたLVLMの評価を実施し、その成果はACL 2024およびNAACL 2025 Findingsに採択されるなど、国際的にも高く評価される成果へと結実した。また、対象を英語から多言語へと拡張する取り組みも成功しており、マルチモーダル処理における応用の幅が広がっている。加えて、動画を対象とした知識推論の試みにおいても、舌の動きを捉えたMRI動画から発声母音を予測する研究がNAACL 2025に採択されるなど、着実な進展が見られた。さらに、言語のみを対象としたPLMの推論能力の評価手法も開発され、優秀賞を受賞するなど、モデルの知識推論能力に関する研究成果も充実している。一方、Retrieval Augmented Generation (RAG)の利用に関しては当初の計画に反して十分な進捗が得られなかった。特に、知識の挿入や利用の確信度制御に関するプロンプト調整、ならびにLVLMにおけるRAGの実装に関しては技術的・設計的課題が残り、今後の取り組みとして持ち越しとなった。
|
| Strategy for Future Research Activity |
次年度は、これまでに得られたマルチモーダル分野における研究成果を基盤として、視覚と言語の融合におけるLLMやLVLMの知識活用能力のさらなる定量的評価と応用展開を行う。特に、最終年度ということもあり時間的な制約を考え、調整を簡易化することを念頭にin-context learningに加えてinstruction-tuningによる入力形式の最適化を検討する。これによりマルチモーダル分野を対象とした際のRAGにおいて必須となる、複数画像を同時に扱うLVLMの利用を簡易に行えるようにしたい。加えて、言語・画像・動画といった異なるモダリティにおける知識の一貫性や転移可能性を評価する枠組みを構築し、LVLMが複数モダリティ間でどの程度統合的に知識を保持・活用できるかを明らかにする。また、自然言語のみを用いた推論能力に関する研究も継続し、異なる知識源に基づいた言語モデルの出力信頼度や知識の利用判断のメカニズムについて検証を行う。さらに、昨年度進捗の乏しかったRAGについては、データストアの構築と補完知識のラベル付け、ならびにLLMによる知識利用の確信度に基づくプロンプト制御の仕組みを改めて整備し、LLMおよびLVLMへの適用可能性を段階的に評価する。とりわけ、RAGが有効に機能する条件や、補完知識が出力に与える影響の可視化を通じて、信頼性の高い応答生成の実現を目指す。これらを通じて、LLMおよびLVLMの知識活用に関する理論的・実証的理解を一層深める計画である。
|