研究課題/領域番号 |
22K12723
|
研究種目 |
基盤研究(C)
|
配分区分 | 基金 |
応募区分 | 一般 |
審査区分 |
小区分90020:図書館情報学および人文社会情報学関連
|
研究機関 | 早稲田大学 |
研究代表者 |
林 良彦 早稲田大学, グリーン・コンピューティング・システム研究機構, その他(招聘研究員) (80379156)
|
研究期間 (年度) |
2022-04-01 – 2025-03-31
|
研究課題ステータス |
交付 (2023年度)
|
配分額 *注記 |
4,160千円 (直接経費: 3,200千円、間接経費: 960千円)
2024年度: 1,300千円 (直接経費: 1,000千円、間接経費: 300千円)
2023年度: 1,300千円 (直接経費: 1,000千円、間接経費: 300千円)
2022年度: 1,560千円 (直接経費: 1,200千円、間接経費: 360千円)
|
キーワード | コモンセンス知識 / 知識グラフ / オントロジー / 多義性解消 / 大規模言語モデル / 文脈依存分散表現 |
研究開始時の研究の概要 |
人間が持つ常識的知識 (コモンセンス知識) を利用する研究が盛んである.代表的なコモンセンス知識グラフである ConceptNet の事前分析から,知識リソースとしての信頼性や有用性に関わる問題点があることが分かった.そこで本研究は,オントロジー工学に立脚する知見と先端的な自然言語処理技術に基づいてこれらの問題点を解消する手段を自然言語処理技術およびグラフ表現技術により実現し,オントロジー的に適度に制約されたコモンセンス知識リソースの構築・利用に関する知見を体系化することを目的とする
|
研究実績の概要 |
本研究は,具体的なコモンセンス知識リソースである ConceptNet を対象とし,オントロジー的に適度に制約されたコモンセンス知識リソースの構築・利用に関する知見を体系化することを目的としている.2年目となる2023年度は,本研究課題における中心的な問題である「知識トリプルの連鎖の妥当性評価」の問題が自然言語処理における「意味的多義性解消」の問題と関連していることに着目し,主としてこの問題に取り組んだ.具体的には,特に異なる文脈における対象語の意味が同一であるかを判定する「Word-In-Context」(WiC) と呼ばれるタスクが深く関連していることに着目し,近年,非常な進展を見せている大規模言語モデル (LLM) を用いて,このタスクに取り組んだ.その結果,以下の知見を得た. (1) LLMに対して適切にプロンプティングを行うことにより,LLMに内在する意味知識を言語化させることができ,これにより得た意味記述を分析することにより,最先端のLLM (特に GPT-4) は,WiCタスクにおいて有用かつ妥当な意味知識を有しているを明らかにした. (2) この意味記述を学習データとして二値分類器を学習することにより,WiCタスクの精度が向上することを明らかにした. (3) にもかかわらず,最も優れた LLM においては,ゼロショットでタスクを解かせた方が精度が高く,上記の言語化では表層化させきれない意味知識が内在している可能性が分かった. (4) プロンプトを工夫することにより,LLMは意味の同一性の程度に関しても一定の感度を有することが分かった. 以上のうち,(1)から(3)の成果については,言語資源・計算言語学の代表的な国際会議である LREC-COING2024 (2024年5月 イタリア・トリノ市開催) にて発表を行い,関連研究者との議論を深める.
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
コモンセンス知識グラフのオントロジー化の検討は当初予定より遅れているが,本課題において中心的な問題である「知識トリプルの連鎖の妥当性評価」に関して,大規模言語モデル(LLM) の適用に関する検討において一定の成果を得たため.
|
今後の研究の推進方策 |
2022年度より進めていた「知識トリプルの連鎖の妥当性評価」方式と,2023年度の WiCタスクに関する方式との統合を進め,全体的な精度向上に取り組む.また,コモンセンス知識グラフのグラフ構造の性質の分析を進めるとともに,特に underspecified な概念ノード間の関係の精密化についての検討を進める.
|