研究課題/領域番号 |
22K12044
|
研究種目 |
基盤研究(C)
|
配分区分 | 基金 |
応募区分 | 一般 |
審査区分 |
小区分60080:データベース関連
|
研究機関 | 早稲田大学 |
研究代表者 |
岩井原 瑞穂 早稲田大学, 理工学術院(情報生産システム研究科・センター), 教授 (40253538)
|
研究期間 (年度) |
2022-04-01 – 2025-03-31
|
研究課題ステータス |
交付 (2023年度)
|
配分額 *注記 |
4,290千円 (直接経費: 3,300千円、間接経費: 990千円)
2024年度: 1,430千円 (直接経費: 1,100千円、間接経費: 330千円)
2023年度: 1,430千円 (直接経費: 1,100千円、間接経費: 330千円)
2022年度: 1,430千円 (直接経費: 1,100千円、間接経費: 330千円)
|
キーワード | テキストマイニング / 情報抽出 / 深層学習 / 学習済み言語モデル / 知識グラフ / テキスト分類 / ソーシャルメディア / 知識処理 |
研究開始時の研究の概要 |
Wikipediaなどの知識蓄積型コンテンツからは構造的データが知識グラフとして抽出され,検索結果の分類や種々の知識処理に活用されている.知識グラフを充実させるためには,Wikipediaやツィート,文書から新たな知識を抽出して知識グラフを拡張することが必要である.本研究では,(1)少量の訓練データのもとでの多ラベル文書分類タスク, (2)学習済み言語モデルを活用したキーフレーズ抽出・生成,(3)知識グラフの構造的拡張の3つのテーマについて,テキストおよびグラフ構造の深層分析に基づく新たな情報抽出手法を開発する.
|
研究実績の概要 |
Wikipediaなどの知識蓄積型コンテンツからは構造的データが知識グラフとして抽出され,検索結果の分類や種々の知識処理に活用されている.知識グラフを充実させるためには,Wikipediaやツィート,文書から新たな知識を抽出して知識グラフを拡張することが必要であり,そのためにはウェブコンテンツの構造情報やテキスト情報を統合的に分析する必要がある.本研究では,(1)少量の訓練データのもとでの多ラベル文書分類タスク, (2)学習済み言語モデルを活用したキーフレーズ抽出・生成,(3)知識グラフの構造的拡張の3つのテーマについて,テキストおよびグラフ構造の深層分析に基づく新たな情報抽出手法を開発するのが目的である. 本年度は,(1)については,ラベル名に関連した特徴的な語句をマスク言語モデルにより発見して追加し,さらに注意機構により文単位の重要度を求める方法を開発した.これを文書が規定のアスペクトについて言及しているかを判定する多ラベル文書分類タスクに適用し,精度が向上すること示した. (2)のキーフレーズ抽出・生成は,文書に出現しているキーフレーズと出現していないキーフレーズにタスクを分けて,それぞれ別の生成型言語モデルを訓練し,さらに学習目標のキーフレーズの出現順序をシャッフルして順序への依存性を削減するなどの手法を組み合わせることにより,既知の結果を上回るキーフレーズ抽出・生成の性能を達成できることを示した. (3)の知識グラフの構造的拡張は,Wikipediaのリストとカテゴリーがどのような意味的な型を持つ要素からなるかを判定する問題について,少量の訓練用のデータを拡張するために,リストとカテゴリーの意味的・文法的・構造的な特徴から疑似ラベルを自動生成するルールを設計した.この疑似ラベルによる言語モデルの訓練により,意味的な型を求める精度を向上できることを示した.
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
当初の計画通り,各研究課題について遂行することができた.
|
今後の研究の推進方策 |
(1)の少量の訓練データのもとでの文書分類タスクについては,prompt tuningという手法の改良をさらに進めるとともに,ラベルなし文書に予測結果を疑似ラベルとして与えて自己訓練を行う際の,新たに設計した閾値関数について評価を進めるとともに,文書間の類似性が訓練により変化する状況を可視化して効果を検証する. (2)のキーフレーズ抽出については,大規模言語モデルによるキーフレーズ生成を検討し,大規模言語モデルの訓練方法について改良を進める. (3)の知識グラフの構造的拡張については,意味的型付け手法の精度の改良を目標として,新たな構造的特徴の抽出や,大規模言語モデルによる判定精度の向上,さらに本手法の応用として,文書から知識グラフへ枝として加えるべき三つ組みを発見する手法を開発する.
|