Extending knowledge graph structures through deep text understanding
Project/Area Number |
22K12044
|
Research Category |
Grant-in-Aid for Scientific Research (C)
|
Allocation Type | Multi-year Fund |
Section | 一般 |
Review Section |
Basic Section 60080:Database-related
|
Research Institution | Waseda University |
Principal Investigator |
岩井原 瑞穂 早稲田大学, 理工学術院(情報生産システム研究科・センター), 教授 (40253538)
|
Project Period (FY) |
2022-04-01 – 2025-03-31
|
Project Status |
Granted (Fiscal Year 2022)
|
Budget Amount *help |
¥4,290,000 (Direct Cost: ¥3,300,000、Indirect Cost: ¥990,000)
Fiscal Year 2024: ¥1,430,000 (Direct Cost: ¥1,100,000、Indirect Cost: ¥330,000)
Fiscal Year 2023: ¥1,430,000 (Direct Cost: ¥1,100,000、Indirect Cost: ¥330,000)
Fiscal Year 2022: ¥1,430,000 (Direct Cost: ¥1,100,000、Indirect Cost: ¥330,000)
|
Keywords | テキストマイニング / 情報抽出 / 深層学習 / 学習済み言語モデル / 知識グラフ / テキスト分類 / ソーシャルメディア / 知識処理 |
Outline of Research at the Start |
Wikipediaなどの知識蓄積型コンテンツからは構造的データが知識グラフとして抽出され,検索結果の分類や種々の知識処理に活用されている.知識グラフを充実させるためには,Wikipediaやツィート,文書から新たな知識を抽出して知識グラフを拡張することが必要である.本研究では,(1)少量の訓練データのもとでの多ラベル文書分類タスク, (2)学習済み言語モデルを活用したキーフレーズ抽出・生成,(3)知識グラフの構造的拡張の3つのテーマについて,テキストおよびグラフ構造の深層分析に基づく新たな情報抽出手法を開発する.
|
Outline of Annual Research Achievements |
Wikipediaなどの知識蓄積型コンテンツからは構造的データが知識グラフとして抽出され,検索結果の分類や種々の知識処理に活用されている.知識グラフを充実させるためには,Wikipediaやツィート,文書から新たな知識を抽出して知識グラフを拡張することが必要であり,そのためにはウェブコンテンツの構造情報やテキスト情報を統合的に分析する必要がある.本研究では,(1)少量の訓練データのもとでの多ラベル文書分類タスク, (2)学習済み言語モデルを活用したキーフレーズ抽出・生成,(3)知識グラフの構造的拡張の3つのテーマについて,テキストおよびグラフ構造の深層分析に基づく新たな情報抽出手法を開発するのが目的である. 本年度は,(1)については,訓練データを全く与えない,つまりzero-shotでありかつラベル名のテキストのみと,ラベルのない文書集合のみが与えられているという厳しい条件であるclass name only classificationという問題に取り組んだ.ここでは多クラス分類問題について検討している.クラス名から連想される関連語を,prompt tuningと呼ばれる手法で予測し,これらの関連語を用いてラベルなし文書に疑似ラベルを与え,分類器をself trainingする手法により,従来手法を上回る精度を示すことができた. (2)のキーフレーズ抽出・生成は,訓練データなしの条件に対し,マスク言語モデルと生成型言語モデルの2つの手法を組み合わせた方法が有効であることを示した. (3)の知識グラフの構造的拡張は,Wikipediaのリストとカテゴリーがどのような意味的な型を持つ要素からなるかを判定する問題について,知識グラフの構造と言語モデルを組み合わせた手法の開発を行った.
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
当初の計画通り,各研究課題について遂行することができた.
|
Strategy for Future Research Activity |
(1)の少量の訓練データのもとでの多ラベル文書分類タスクについては,prompt tuningという手法の改良を進めるとともに,ラベルなし文書に予測結果を疑似ラベルとして与えて自己訓練を行う際の,閾値関数についての検討を進める. (2)のキーフレーズ抽出については,より大規模かつ多様な文書集合を対象とするとともに,生成型言語モデルの訓練方法についての改良を進める. (3)の知識グラフの構造的拡張については,意味的型付け手法の精度の改良を目標として,新たな構造的特徴の抽出や,promptによる言語モデルを応用した手法の開発を行う.
|
Report
(1 results)
Research Products
(6 results)