ウェブコンテンツの深層テキスト分析を応用した知識グラフの構造的拡張

研究課題

研究課題/領域番号	22K12044
研究種目	基盤研究(C)
配分区分	基金
応募区分	一般
審査区分	小区分60080:データベース関連
研究機関	早稲田大学
研究代表者	岩井原瑞穂早稲田大学, 理工学術院(情報生産システム研究科・センター), 教授 (40253538)
研究期間 (年度)	2022-04-01 – 2025-03-31
研究課題ステータス	交付 (2023年度)
配分額 *注記	4,290千円 (直接経費: 3,300千円、間接経費: 990千円) 2024年度: 1,430千円 (直接経費: 1,100千円、間接経費: 330千円) 2023年度: 1,430千円 (直接経費: 1,100千円、間接経費: 330千円) 2022年度: 1,430千円 (直接経費: 1,100千円、間接経費: 330千円)
キーワード	テキストマイニング / 情報抽出 / 深層学習 / 学習済み言語モデル / 知識グラフ / テキスト分類 / ソーシャルメディア / 知識処理
研究開始時の研究の概要	Wikipediaなどの知識蓄積型コンテンツからは構造的データが知識グラフとして抽出され，検索結果の分類や種々の知識処理に活用されている．知識グラフを充実させるためには，Wikipediaやツィート，文書から新たな知識を抽出して知識グラフを拡張することが必要である．本研究では，(1)少量の訓練データのもとでの多ラベル文書分類タスク, (2)学習済み言語モデルを活用したキーフレーズ抽出・生成,(3)知識グラフの構造的拡張の３つのテーマについて，テキストおよびグラフ構造の深層分析に基づく新たな情報抽出手法を開発する．
研究実績の概要	Wikipediaなどの知識蓄積型コンテンツからは構造的データが知識グラフとして抽出され，検索結果の分類や種々の知識処理に活用されている．知識グラフを充実させるためには，Wikipediaやツィート，文書から新たな知識を抽出して知識グラフを拡張することが必要であり，そのためにはウェブコンテンツの構造情報やテキスト情報を統合的に分析する必要がある．本研究では，(1)少量の訓練データのもとでの多ラベル文書分類タスク, (2)学習済み言語モデルを活用したキーフレーズ抽出・生成,(3)知識グラフの構造的拡張の３つのテーマについて，テキストおよびグラフ構造の深層分析に基づく新たな情報抽出手法を開発するのが目的である．本年度は，(1)については，ラベル名に関連した特徴的な語句をマスク言語モデルにより発見して追加し，さらに注意機構により文単位の重要度を求める方法を開発した．これを文書が規定のアスペクトについて言及しているかを判定する多ラベル文書分類タスクに適用し，精度が向上すること示した． (2)のキーフレーズ抽出・生成は，文書に出現しているキーフレーズと出現していないキーフレーズにタスクを分けて，それぞれ別の生成型言語モデルを訓練し，さらに学習目標のキーフレーズの出現順序をシャッフルして順序への依存性を削減するなどの手法を組み合わせることにより，既知の結果を上回るキーフレーズ抽出・生成の性能を達成できることを示した． (3)の知識グラフの構造的拡張は，Wikipediaのリストとカテゴリーがどのような意味的な型を持つ要素からなるかを判定する問題について，少量の訓練用のデータを拡張するために，リストとカテゴリーの意味的・文法的・構造的な特徴から疑似ラベルを自動生成するルールを設計した．この疑似ラベルによる言語モデルの訓練により，意味的な型を求める精度を向上できることを示した．
現在までの達成度 (区分)	現在までの達成度 (区分) 2: おおむね順調に進展している理由当初の計画通り，各研究課題について遂行することができた．
今後の研究の推進方策	(1)の少量の訓練データのもとでの文書分類タスクについては，prompt tuningという手法の改良をさらに進めるとともに，ラベルなし文書に予測結果を疑似ラベルとして与えて自己訓練を行う際の，新たに設計した閾値関数について評価を進めるとともに，文書間の類似性が訓練により変化する状況を可視化して効果を検証する． (2)のキーフレーズ抽出については，大規模言語モデルによるキーフレーズ生成を検討し，大規模言語モデルの訓練方法について改良を進める． (3)の知識グラフの構造的拡張については，意味的型付け手法の精度の改良を目標として，新たな構造的特徴の抽出や，大規模言語モデルによる判定精度の向上，さらに本手法の応用として，文書から知識グラフへ枝として加えるべき三つ組みを発見する手法を開発する．

報告書

(2件)

2023 実施状況報告書
2022 実施状況報告書

研究成果
(12件)

すべて 2024 2023 2022

すべて雑誌論文 (1件) (うち査読あり 1件) 学会発表 (11件) (うち国際学会 6件)

[雑誌論文] Self-training involving semantic-space finetuning for semi-supervised multi-label document classification2024
- 著者名/発表者名
  Zhewei Xu, Mizuho Iwaihara
- 雑誌名
  
  International Journal on Digital Libraries
  
  巻: 25 号: 1 ページ: 25-39
- DOI
  10.1007/s00799-023-00355-4
- 関連する報告書
  2023 実施状況報告書
- 査読あり
[学会発表] Empowering Zero-Shot Extreme Multi-Label Text Classification via Weighted Contrastive Learning and Semantic Label Augmentation2024
- 著者名/発表者名
  Zhao Yanan, Mizuho Iwaihara
- 学会等名
  DEIM Forum 1a-3-4, Online, February 2024.
- 関連する報告書
  2023 実施状況報告書
[学会発表] Evaluating the Performance of ChatGPT for Aspect-Based Sentiment Analysis2024
- 著者名/発表者名
  Yifei Wang, Mizuho Iwaihara
- 学会等名
  DEIM Forum, T1-B-8-0-2, Online, February 2024.
- 関連する報告書
  2023 実施状況報告書
[学会発表] Few-Shot Multi-Label Aspect Category Detection Utilizing Prototypical Network with Sentence-Level Weighting and Label Augmentation2023
- 著者名/発表者名
  Zeyu Wang and Mizuho Iwaihara
- 学会等名
  Proc. 34th Int. Conf. on Database and Expert Systems Applications (DEXA2023), LNCS Vol.14147, pp.363-377, Aug. 2023.
- 関連する報告書
  2023 実施状況報告書
- 国際学会
[学会発表] Enhancing Keyphrase Generation by BART Finetuning with Splitting and Shuffling2023
- 著者名/発表者名
  Bin CHEN and Mizuho IWAIHARA
- 学会等名
  Proc. 20th Pacific Rim Int. Conf. on Artificial Intelligence (PRICAI23), Jakarta, Nov. 2023.
- 関連する報告書
  2023 実施状況報告書
- 国際学会
[学会発表] SLHCat: Mapping Wikipedia Categories and Lists to DBpedia by Leveraging Semantic, Lexical, and Hierarchical Features2023
- 著者名/発表者名
  Zhaoyi WANG, Zhenyang ZHANG, Jiaxin QIN, Mizuho IWAIHARA
- 学会等名
  Proc.25th Int.Conf.Asian Digital Libraries (ICDAL2023), LNCS Vol. 14457, pp.133-148, Dec. 2023.
- 関連する報告書
  2023 実施状況報告書
- 国際学会
[学会発表] Mapping Wikipedia Categories and Lists to DBPedia Ontology Based on Structural and Semantic Features2023
- 著者名/発表者名
  Zhang Zhenyang, Wang Zhaoyi, Mizuho Iwaihara
- 学会等名
  第15回データ工学と情報マネジメントに関するフォーラム
- 関連する報告書
  2022 実施状況報告書
[学会発表] Utilizing Keyphrase Generation and Semantic Similarity for Extreme Multi- Label Text Classification2023
- 著者名/発表者名
  Dai Xiangting, Mizuho Iwaihara
- 学会等名
  第15回データ工学と情報マネジメントに関するフォーラム
- 関連する報告書
  2022 実施状況報告書
[学会発表] Efficient Summarization of Long Documents Using Hybrid Extractive-Abstractive Method2023
- 著者名/発表者名
  Chen Weichao, Mizuho Iwaihara
- 学会等名
  第15回データ工学と情報マネジメントに関するフォーラム
- 関連する報告書
  2022 実施状況報告書
[学会発表] Capsule Network Over Pre-Trained Language Model and User Writing Styles for Authorship Attribution on Short Texts2022
- 著者名/発表者名
  Zeping Huang, Mizuho Iwaihara
- 学会等名
  Proc. 2022 3rd International Conference on Control, Robotics and Intelligent System (CCRIS’22)
- 関連する報告書
  2022 実施状況報告書
- 国際学会
[学会発表] Extractive Summarization Utilizing Keyphrases by Finetuning BERT-Based Model2022
- 著者名/発表者名
  Xiaoye Wang, Mizuho Iwaihara
- 学会等名
  Proc.24th Int.Conf.Asian Digital Libraries (ICDAL2022), LNCS Vol. 13636
- 関連する報告書
  2022 実施状況報告書
- 国際学会
[学会発表] Unsupervised Keyphrase Generation by Utilizing Masked Words Prediction and Pseudo-label BART Finetuning2022
- 著者名/発表者名
  Yingchao Ju and Mizuho Iwaihara
- 学会等名
  Proc.24th Int.Conf.Asian Digital Libraries (ICDAL2022), LNCS Vol. 13636
- 関連する報告書
  2022 実施状況報告書
- 国際学会

ウェブコンテンツの深層テキスト分析を応用した知識グラフの構造的拡張

研究代表者

岩井原 瑞穂 早稲田大学, 理工学術院(情報生産システム研究科・センター), 教授 (40253538)

4,290千円 (直接経費: 3,300千円、間接経費: 990千円)

現在までの達成度 (区分)

理由

報告書

研究成果

[雑誌論文] Self-training involving semantic-space finetuning for semi-supervised multi-label document classification2024

著者名/発表者名

雑誌名

DOI

関連する報告書

[学会発表] Empowering Zero-Shot Extreme Multi-Label Text Classification via Weighted Contrastive Learning and Semantic Label Augmentation2024

著者名/発表者名

学会等名

関連する報告書

[学会発表] Evaluating the Performance of ChatGPT for Aspect-Based Sentiment Analysis2024

著者名/発表者名

学会等名

関連する報告書

[学会発表] Few-Shot Multi-Label Aspect Category Detection Utilizing Prototypical Network with Sentence-Level Weighting and Label Augmentation2023

著者名/発表者名

学会等名

関連する報告書

[学会発表] Enhancing Keyphrase Generation by BART Finetuning with Splitting and Shuffling2023

著者名/発表者名

学会等名

関連する報告書

[学会発表] SLHCat: Mapping Wikipedia Categories and Lists to DBpedia by Leveraging Semantic, Lexical, and Hierarchical Features2023

著者名/発表者名

学会等名

関連する報告書

[学会発表] Mapping Wikipedia Categories and Lists to DBPedia Ontology Based on Structural and Semantic Features2023

著者名/発表者名

学会等名

関連する報告書

[学会発表] Utilizing Keyphrase Generation and Semantic Similarity for Extreme Multi- Label Text Classification2023

著者名/発表者名

学会等名

関連する報告書

[学会発表] Efficient Summarization of Long Documents Using Hybrid Extractive-Abstractive Method2023

著者名/発表者名

学会等名

関連する報告書

[学会発表] Capsule Network Over Pre-Trained Language Model and User Writing Styles for Authorship Attribution on Short Texts2022

著者名/発表者名

学会等名

関連する報告書

[学会発表] Extractive Summarization Utilizing Keyphrases by Finetuning BERT-Based Model2022

著者名/発表者名

学会等名

関連する報告書

[学会発表] Unsupervised Keyphrase Generation by Utilizing Masked Words Prediction and Pseudo-label BART Finetuning2022

著者名/発表者名

学会等名

関連する報告書

岩井原瑞穂早稲田大学, 理工学術院(情報生産システム研究科・センター), 教授 (40253538)