Project/Area Number |
23K28148
|
Project/Area Number (Other) |
23H03458 (2023)
|
Research Category |
Grant-in-Aid for Scientific Research (B)
|
Allocation Type | Multi-year Fund (2024) Single-year Grants (2023) |
Section | 一般 |
Review Section |
Basic Section 61030:Intelligent informatics-related
Basic Section 60030:Statistical science-related
Sections That Are Subject to Joint Review: Basic Section60030:Statistical science-related , Basic Section61030:Intelligent informatics-related
|
Research Institution | Nara Institute of Science and Technology |
Principal Investigator |
上垣外 英剛 奈良先端科学技術大学院大学, 先端科学技術研究科, 准教授 (40817649)
|
Co-Investigator(Kenkyū-buntansha) |
林 克彦 東京大学, 大学院総合文化研究科, 准教授 (50725794)
大内 啓樹 奈良先端科学技術大学院大学, 先端科学技術研究科, 助教 (70825463)
渡辺 太郎 奈良先端科学技術大学院大学, 先端科学技術研究科, 教授 (90395038)
|
Project Period (FY) |
2023-04-01 – 2026-03-31
|
Project Status |
Granted (Fiscal Year 2024)
|
Budget Amount *help |
¥15,340,000 (Direct Cost: ¥11,800,000、Indirect Cost: ¥3,540,000)
Fiscal Year 2025: ¥4,940,000 (Direct Cost: ¥3,800,000、Indirect Cost: ¥1,140,000)
Fiscal Year 2024: ¥4,940,000 (Direct Cost: ¥3,800,000、Indirect Cost: ¥1,140,000)
Fiscal Year 2023: ¥5,460,000 (Direct Cost: ¥4,200,000、Indirect Cost: ¥1,260,000)
|
Keywords | 知識グラフ / 大規模言語モデル / Knowledge Graph / Large Language Model / LLM / 画像と言語の融合 / Vision and Language / Knowledge Base / 自然言語生成 / 事前学習済み言語モデル / 知識グラフの補完 / BERT |
Outline of Research at the Start |
大規模言語モデル(LLM)は多様なタスクを扱うことが可能な一方、膨大なパラメータサイズにより学習コストが高いという課題が存在する。この課題のため、日々更新される知識を頻繁な学習によりLLMで扱うことは現実的ではない。このため、LLMにおいてデータストア中からの検索結果を利用するRetrieval-Augmented Generation (RAG)等の方法が利用されているが、これらで扱われるテキストデータには対応する構造的な知識に関する情報が含まれておらず、解釈性や制御性といった実用面での課題が存在する。本研究では知識グラフをデータストアの構造化に利用することによる上記課題の解決を目的とする。
|
Outline of Annual Research Achievements |
ChatGPTの登場及びGPT-4-Visionの登場により、巨大言語モデル(LLM)や画像をも入力に用いることが可能なLarge-scale Vision Language Model (LVLM)の利用が一般的となったため、本研究課題の一年目には、将来の発展を見据えてLLMやLVLMを含む、事前学習済み言語モデル(PLM)における知識の利用法及び推論能力の検証を行った。PLMにおける知識の推論能力を測るために漏洩が起きにくい知識グラフの推論データを作成する手法を提案し、PLMとそれ以前の手法との比較を行いPLMにおける性能向上の多くの部分が事前学習時に獲得した知識を流用していることが判明した一方、事前学習により未知の知識を推論により導出可能なことについても確認した。この結果を自然言語処理研究会で発表し優秀賞を受賞した。また同内容を発展させたものが自然言語処理分野のトップ国際会議であるNAACLに採択された。そして知識グラフ推論用のモデルを過学習を避けて学習するための手法も提案し、その内容が国際会議IJCNLP-AACLに採択された。さらにLLMにおいてテンプレートやデコード法の差異による性能変化が生じることを明らかにした研究を自然言語処理研究会で発表し優秀賞を受賞した。その上、画像に関連した知識をPLMが上手く保持できているかの検証についても行い、画像と自然言語の対応付けに課題があることを明らかにした研究が自然言語処理分野のトップ国際会議であるACLに採択された。この研究を発展させ、特に自然言語から獲得された知識を利用する能力を測るために、芸術分野の画像を対象にその説明を行うタスクを提案し、その内容を言語処理学会にて発表した。また、この内容を発展させたものを、現在ACL2024に投稿している。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
本研究提案の最終的な目的は大規模言語モデル(LLM)を利用する上で解釈性及び制御性の向上とタスク解決性能の向上の両立を行うことである。この目的のためにLLMが保持する記憶を維持しつつ、対象タスクに応じて必要な知識をデータストア経由で外挿し、さらに解釈性を高めるために外挿された知識をも考慮しつつ、新しい知識を推論により導出し、その結果を再度データストアに格納することを考えている。初年度には幸にしてChatGPTの出現とそれに伴うLLMの利用加速に伴い、Retrieval Augmented Generation (RAG)という枠組みが一般的に用いられるようになった。これは本研究が目指すデータストア経由での知識の外挿を行う上で適する枠組みである。従って、初年度はこの枠組みに基づいた研究提案の目標実現を念頭に、この手法への知識グラフの適用を行うために、LLMを含む事前学習済み言語モデルを用いた場合の知識グラフの補完性能の検証及びより効果的な知識グラフの補完の学習法を検証し、実際に事前学習済み言語モデルを用いることで事前学習時には観測していない知識についても推論によって補完できることを明らかにした。また、LLMの著しい進展を考慮に入れた上で、最終年度までには画像などの言語以外の情報が一般的な入力として扱われる可能性が高いと判断し、画像の入力を伴う場合のLLMの知識の扱いについての検証を行った。検証の結果、それを可能とするはずの既存のLarge-scale Vision Language Model (LVLM)では自然言語から獲得された知識が適切に引き継がれていないという問題が存在することが明らかとなった。以上より、事前学習済み言語モデルがデータ漏洩などを除外したとしても推論により未知の知識を獲得可能であることが判明したことから、初年度の進展は概ね順調であると判断できる。
|
Strategy for Future Research Activity |
まず、初年度の研究により事前学習済み言語モデルが未知の知識を推論により獲得できることが判明したため、大規模言語モデル(LLM)上でRetrieval Augmented Generation (RAG)を用いて推論を行う際に、RAGのデータストア上に補完された知識を挿入し、実際に動作するかを検証する。LLMを用いてRAGを行う際にはその高い汎用性からin-context learningに基づいて利用することを想定している。ただし、補完された知識グラフには事実ではない情報が含まれる可能性が存在することから、利用においては知識が元のデータに存在するものか、補完されたものかを明示するためのラベルを付与し、LLMが判断する確信度に基づいて各知識を利用するようにプロンプトを調整する。そして初年度にて準備した言語と画像の融合分野(V&L)における説明生成のタスクを対象に、画像情報を伴う知識グラフを利用することで、自然言語で行った上記の検証をLarge-scale Vision Language Model (LVLM)を用いてV&Lでも同様に実施する。ただし、RAGを利用するためにはLVLMが複数の画像を扱う必要が生じるものの、既存のモデルでは一部のものしかその機能を持ち合わせていないため、場合によってはin-context learningのみならず、instruction-tuningによって複数画像を受理可能なモデルの作成も検討する。また、初年度の検証において、LVLMではLLMの知識が適切に引き継がれていない場合があることが判明しているため、LVLMを用いたRAGでは検索事例として、画像を含まない、自然言語のみの事例についてもその有用性の検証を行う。
|