研究課題/領域番号 |
22K12044
|
研究種目 |
基盤研究(C)
|
配分区分 | 基金 |
応募区分 | 一般 |
審査区分 |
小区分60080:データベース関連
|
研究機関 | 早稲田大学 |
研究代表者 |
岩井原 瑞穂 早稲田大学, 理工学術院(情報生産システム研究科・センター), 教授 (40253538)
|
研究期間 (年度) |
2022-04-01 – 2025-03-31
|
研究課題ステータス |
交付 (2022年度)
|
配分額 *注記 |
4,290千円 (直接経費: 3,300千円、間接経費: 990千円)
2024年度: 1,430千円 (直接経費: 1,100千円、間接経費: 330千円)
2023年度: 1,430千円 (直接経費: 1,100千円、間接経費: 330千円)
2022年度: 1,430千円 (直接経費: 1,100千円、間接経費: 330千円)
|
キーワード | テキストマイニング / 情報抽出 / 深層学習 / 学習済み言語モデル / 知識グラフ / テキスト分類 / ソーシャルメディア / 知識処理 |
研究開始時の研究の概要 |
Wikipediaなどの知識蓄積型コンテンツからは構造的データが知識グラフとして抽出され,検索結果の分類や種々の知識処理に活用されている.知識グラフを充実させるためには,Wikipediaやツィート,文書から新たな知識を抽出して知識グラフを拡張することが必要である.本研究では,(1)少量の訓練データのもとでの多ラベル文書分類タスク, (2)学習済み言語モデルを活用したキーフレーズ抽出・生成,(3)知識グラフの構造的拡張の3つのテーマについて,テキストおよびグラフ構造の深層分析に基づく新たな情報抽出手法を開発する.
|
研究実績の概要 |
Wikipediaなどの知識蓄積型コンテンツからは構造的データが知識グラフとして抽出され,検索結果の分類や種々の知識処理に活用されている.知識グラフを充実させるためには,Wikipediaやツィート,文書から新たな知識を抽出して知識グラフを拡張することが必要であり,そのためにはウェブコンテンツの構造情報やテキスト情報を統合的に分析する必要がある.本研究では,(1)少量の訓練データのもとでの多ラベル文書分類タスク, (2)学習済み言語モデルを活用したキーフレーズ抽出・生成,(3)知識グラフの構造的拡張の3つのテーマについて,テキストおよびグラフ構造の深層分析に基づく新たな情報抽出手法を開発するのが目的である. 本年度は,(1)については,訓練データを全く与えない,つまりzero-shotでありかつラベル名のテキストのみと,ラベルのない文書集合のみが与えられているという厳しい条件であるclass name only classificationという問題に取り組んだ.ここでは多クラス分類問題について検討している.クラス名から連想される関連語を,prompt tuningと呼ばれる手法で予測し,これらの関連語を用いてラベルなし文書に疑似ラベルを与え,分類器をself trainingする手法により,従来手法を上回る精度を示すことができた. (2)のキーフレーズ抽出・生成は,訓練データなしの条件に対し,マスク言語モデルと生成型言語モデルの2つの手法を組み合わせた方法が有効であることを示した. (3)の知識グラフの構造的拡張は,Wikipediaのリストとカテゴリーがどのような意味的な型を持つ要素からなるかを判定する問題について,知識グラフの構造と言語モデルを組み合わせた手法の開発を行った.
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
当初の計画通り,各研究課題について遂行することができた.
|
今後の研究の推進方策 |
(1)の少量の訓練データのもとでの多ラベル文書分類タスクについては,prompt tuningという手法の改良を進めるとともに,ラベルなし文書に予測結果を疑似ラベルとして与えて自己訓練を行う際の,閾値関数についての検討を進める. (2)のキーフレーズ抽出については,より大規模かつ多様な文書集合を対象とするとともに,生成型言語モデルの訓練方法についての改良を進める. (3)の知識グラフの構造的拡張については,意味的型付け手法の精度の改良を目標として,新たな構造的特徴の抽出や,promptによる言語モデルを応用した手法の開発を行う.
|