2022 年度実施状況報告書

ウェブコンテンツの深層テキスト分析を応用した知識グラフの構造的拡張

研究課題

研究課題/領域番号	22K12044
研究機関	早稲田大学
研究代表者	岩井原瑞穂早稲田大学, 理工学術院(情報生産システム研究科・センター), 教授 (40253538)
研究期間 (年度)	2022-04-01 – 2025-03-31
キーワード	テキストマイニング / 情報抽出 / 深層学習 / 学習済み言語モデル / 知識グラフ / テキスト分類
研究実績の概要	Wikipediaなどの知識蓄積型コンテンツからは構造的データが知識グラフとして抽出され，検索結果の分類や種々の知識処理に活用されている．知識グラフを充実させるためには，Wikipediaやツィート，文書から新たな知識を抽出して知識グラフを拡張することが必要であり，そのためにはウェブコンテンツの構造情報やテキスト情報を統合的に分析する必要がある．本研究では，(1)少量の訓練データのもとでの多ラベル文書分類タスク, (2)学習済み言語モデルを活用したキーフレーズ抽出・生成,(3)知識グラフの構造的拡張の３つのテーマについて，テキストおよびグラフ構造の深層分析に基づく新たな情報抽出手法を開発するのが目的である．本年度は，(1)については，訓練データを全く与えない，つまりzero-shotでありかつラベル名のテキストのみと，ラベルのない文書集合のみが与えられているという厳しい条件であるclass name only classificationという問題に取り組んだ．ここでは多クラス分類問題について検討している．クラス名から連想される関連語を，prompt tuningと呼ばれる手法で予測し，これらの関連語を用いてラベルなし文書に疑似ラベルを与え，分類器をself trainingする手法により，従来手法を上回る精度を示すことができた． (2)のキーフレーズ抽出・生成は，訓練データなしの条件に対し，マスク言語モデルと生成型言語モデルの２つの手法を組み合わせた方法が有効であることを示した． (3)の知識グラフの構造的拡張は，Wikipediaのリストとカテゴリーがどのような意味的な型を持つ要素からなるかを判定する問題について，知識グラフの構造と言語モデルを組み合わせた手法の開発を行った．
現在までの達成度 (区分)	現在までの達成度 (区分) 2: おおむね順調に進展している理由当初の計画通り，各研究課題について遂行することができた．
今後の研究の推進方策	(1)の少量の訓練データのもとでの多ラベル文書分類タスクについては，prompt tuningという手法の改良を進めるとともに，ラベルなし文書に予測結果を疑似ラベルとして与えて自己訓練を行う際の，閾値関数についての検討を進める． (2)のキーフレーズ抽出については，より大規模かつ多様な文書集合を対象とするとともに，生成型言語モデルの訓練方法についての改良を進める． (3)の知識グラフの構造的拡張については，意味的型付け手法の精度の改良を目標として，新たな構造的特徴の抽出や，promptによる言語モデルを応用した手法の開発を行う．

研究成果
(6件)

すべて 2023 2022

すべて学会発表 (6件) (うち国際学会 3件)

[学会発表] Mapping Wikipedia Categories and Lists to DBPedia Ontology Based on Structural and Semantic Features2023
- 著者名/発表者名
  Zhang Zhenyang, Wang Zhaoyi, Mizuho Iwaihara
- 学会等名
  第15回データ工学と情報マネジメントに関するフォーラム
[学会発表] Utilizing Keyphrase Generation and Semantic Similarity for Extreme Multi- Label Text Classification2023
- 著者名/発表者名
  Dai Xiangting, Mizuho Iwaihara
- 学会等名
  第15回データ工学と情報マネジメントに関するフォーラム
[学会発表] Efficient Summarization of Long Documents Using Hybrid Extractive-Abstractive Method2023
- 著者名/発表者名
  Chen Weichao, Mizuho Iwaihara
- 学会等名
  第15回データ工学と情報マネジメントに関するフォーラム
[学会発表] Capsule Network Over Pre-Trained Language Model and User Writing Styles for Authorship Attribution on Short Texts2022
- 著者名/発表者名
  Zeping Huang, Mizuho Iwaihara
- 学会等名
  Proc. 2022 3rd International Conference on Control, Robotics and Intelligent System (CCRIS’22)
- 国際学会
[学会発表] Extractive Summarization Utilizing Keyphrases by Finetuning BERT-Based Model2022
- 著者名/発表者名
  Xiaoye Wang, Mizuho Iwaihara
- 学会等名
  Proc.24th Int.Conf.Asian Digital Libraries (ICDAL2022), LNCS Vol. 13636
- 国際学会
[学会発表] Unsupervised Keyphrase Generation by Utilizing Masked Words Prediction and Pseudo-label BART Finetuning2022
- 著者名/発表者名
  Yingchao Ju and Mizuho Iwaihara
- 学会等名
  Proc.24th Int.Conf.Asian Digital Libraries (ICDAL2022), LNCS Vol. 13636
- 国際学会

2022 年度 実施状況報告書

ウェブコンテンツの深層テキスト分析を応用した知識グラフの構造的拡張

研究代表者

岩井原 瑞穂 早稲田大学, 理工学術院(情報生産システム研究科・センター), 教授 (40253538)

現在までの達成度 (区分)

理由

研究成果

[学会発表] Mapping Wikipedia Categories and Lists to DBPedia Ontology Based on Structural and Semantic Features2023

著者名/発表者名

学会等名

[学会発表] Utilizing Keyphrase Generation and Semantic Similarity for Extreme Multi- Label Text Classification2023

著者名/発表者名

学会等名

[学会発表] Efficient Summarization of Long Documents Using Hybrid Extractive-Abstractive Method2023

著者名/発表者名

学会等名

[学会発表] Capsule Network Over Pre-Trained Language Model and User Writing Styles for Authorship Attribution on Short Texts2022

著者名/発表者名

学会等名

[学会発表] Extractive Summarization Utilizing Keyphrases by Finetuning BERT-Based Model2022

著者名/発表者名

学会等名

[学会発表] Unsupervised Keyphrase Generation by Utilizing Masked Words Prediction and Pseudo-label BART Finetuning2022

著者名/発表者名

学会等名

2022 年度実施状況報告書

岩井原瑞穂早稲田大学, 理工学術院(情報生産システム研究科・センター), 教授 (40253538)