• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2022 Fiscal Year Research-status Report

Extending knowledge graph structures through deep text understanding

Research Project

Project/Area Number 22K12044
Research InstitutionWaseda University

Principal Investigator

岩井原 瑞穂  早稲田大学, 理工学術院(情報生産システム研究科・センター), 教授 (40253538)

Project Period (FY) 2022-04-01 – 2025-03-31
Keywordsテキストマイニング / 情報抽出 / 深層学習 / 学習済み言語モデル / 知識グラフ / テキスト分類
Outline of Annual Research Achievements

Wikipediaなどの知識蓄積型コンテンツからは構造的データが知識グラフとして抽出され,検索結果の分類や種々の知識処理に活用されている.知識グラフを充実させるためには,Wikipediaやツィート,文書から新たな知識を抽出して知識グラフを拡張することが必要であり,そのためにはウェブコンテンツの構造情報やテキスト情報を統合的に分析する必要がある.本研究では,(1)少量の訓練データのもとでの多ラベル文書分類タスク, (2)学習済み言語モデルを活用したキーフレーズ抽出・生成,(3)知識グラフの構造的拡張の3つのテーマについて,テキストおよびグラフ構造の深層分析に基づく新たな情報抽出手法を開発するのが目的である.
本年度は,(1)については,訓練データを全く与えない,つまりzero-shotでありかつラベル名のテキストのみと,ラベルのない文書集合のみが与えられているという厳しい条件であるclass name only classificationという問題に取り組んだ.ここでは多クラス分類問題について検討している.クラス名から連想される関連語を,prompt tuningと呼ばれる手法で予測し,これらの関連語を用いてラベルなし文書に疑似ラベルを与え,分類器をself trainingする手法により,従来手法を上回る精度を示すことができた.
(2)のキーフレーズ抽出・生成は,訓練データなしの条件に対し,マスク言語モデルと生成型言語モデルの2つの手法を組み合わせた方法が有効であることを示した.
(3)の知識グラフの構造的拡張は,Wikipediaのリストとカテゴリーがどのような意味的な型を持つ要素からなるかを判定する問題について,知識グラフの構造と言語モデルを組み合わせた手法の開発を行った.

Current Status of Research Progress
Current Status of Research Progress

2: Research has progressed on the whole more than it was originally planned.

Reason

当初の計画通り,各研究課題について遂行することができた.

Strategy for Future Research Activity

(1)の少量の訓練データのもとでの多ラベル文書分類タスクについては,prompt tuningという手法の改良を進めるとともに,ラベルなし文書に予測結果を疑似ラベルとして与えて自己訓練を行う際の,閾値関数についての検討を進める.
(2)のキーフレーズ抽出については,より大規模かつ多様な文書集合を対象とするとともに,生成型言語モデルの訓練方法についての改良を進める.
(3)の知識グラフの構造的拡張については,意味的型付け手法の精度の改良を目標として,新たな構造的特徴の抽出や,promptによる言語モデルを応用した手法の開発を行う.

  • Research Products

    (6 results)

All 2023 2022

All Presentation (6 results) (of which Int'l Joint Research: 3 results)

  • [Presentation] Mapping Wikipedia Categories and Lists to DBPedia Ontology Based on Structural and Semantic Features2023

    • Author(s)
      Zhang Zhenyang, Wang Zhaoyi, Mizuho Iwaihara
    • Organizer
      第15回データ工学と情報マネジメントに関するフォーラム
  • [Presentation] Utilizing Keyphrase Generation and Semantic Similarity for Extreme Multi- Label Text Classification2023

    • Author(s)
      Dai Xiangting, Mizuho Iwaihara
    • Organizer
      第15回データ工学と情報マネジメントに関するフォーラム
  • [Presentation] Efficient Summarization of Long Documents Using Hybrid Extractive-Abstractive Method2023

    • Author(s)
      Chen Weichao, Mizuho Iwaihara
    • Organizer
      第15回データ工学と情報マネジメントに関するフォーラム
  • [Presentation] Capsule Network Over Pre-Trained Language Model and User Writing Styles for Authorship Attribution on Short Texts2022

    • Author(s)
      Zeping Huang, Mizuho Iwaihara
    • Organizer
      Proc. 2022 3rd International Conference on Control, Robotics and Intelligent System (CCRIS’22)
    • Int'l Joint Research
  • [Presentation] Extractive Summarization Utilizing Keyphrases by Finetuning BERT-Based Model2022

    • Author(s)
      Xiaoye Wang, Mizuho Iwaihara
    • Organizer
      Proc.24th Int.Conf.Asian Digital Libraries (ICDAL2022), LNCS Vol. 13636
    • Int'l Joint Research
  • [Presentation] Unsupervised Keyphrase Generation by Utilizing Masked Words Prediction and Pseudo-label BART Finetuning2022

    • Author(s)
      Yingchao Ju and Mizuho Iwaihara
    • Organizer
      Proc.24th Int.Conf.Asian Digital Libraries (ICDAL2022), LNCS Vol. 13636
    • Int'l Joint Research

URL: 

Published: 2023-12-25  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi