2021 Fiscal Year Annual Research Report
Structural extension of knolwedge graph utilizing temporal and semantic analysis of social media
Project/Area Number |
19K11983
|
Research Institution | Waseda University |
Principal Investigator |
岩井原 瑞穂 早稲田大学, 理工学術院(情報生産システム研究科・センター), 教授 (40253538)
|
Project Period (FY) |
2019-04-01 – 2022-03-31
|
Keywords | テキストマイニング / 情報抽出 / ソーシャルメディア / 知識処理 / 時系列分析 |
Outline of Annual Research Achievements |
代表的な知識蓄積型ソーシャルメディアであるWikipediaからは,計算機利用が容易な構造的データが知識グラフとして抽出され,検索結果の分類や種々の自然言語処理に活用されている.知識グラフを充実させるためには,Wikipedia記事のマイニングにおいて,リンクやリスト,カテゴリなどの構造情報を活用し,さらに拡張する新たな手法が必要である.本課題では,(1)知識グラフの構造的拡張において, (1-a) 記事間のリンク予測および記事の分離統合予測問題, (1-b) Wikipediaリストの要素帰属問題およびテーブルスキーマ生成問題, (1-c) 実体リンキングへの応用からなる新たな課題に取り組む.また記事の時系列変化に着目した,(2) 編集履歴からの特徴的語句の抽出に取り組む. (3)ソーシャルメディアにおけるセンチメントの集約表現では,ツイートなどのソーシャルメディアにおける関心やムードの簡潔な集約表現を開発する. 本年度は,(1-c)についてWikipdiaリストから抽出された知識グラフを用いて,テーブルデータのカラムの意味的型付けを行う手法を提案した. (2)については,文書の特徴的語句の候補を抽出し,学習済み言語モデルBERTで候補のランク付けを行う手法に加え,言語生成モデルを用いて特徴的語句を生成する手法を示した. (3)では,ツィートの著者推定において,学習済み言語モデルと書き方の特徴を捉える深層学習モデルの組み合わせによる,精度の向上を示した.またセンチメント分析を含む文書のラベル付け問題について,1つの文書が複数のラベルを持つ多ラベル分類を,しかも学習用ラベル付きデータが少ない状況で行う問題について,確信度の高い疑似ラベルで学習済み言語モデルを徐々にfinetuningする新たな手法を示した.
|