2020 Fiscal Year Research-status Report
Structural extension of knolwedge graph utilizing temporal and semantic analysis of social media
Project/Area Number |
19K11983
|
Research Institution | Waseda University |
Principal Investigator |
岩井原 瑞穂 早稲田大学, 理工学術院(情報生産システム研究科・センター), 教授 (40253538)
|
Project Period (FY) |
2019-04-01 – 2022-03-31
|
Keywords | テキストマイニング / 情報抽出 / ソーシャルメディア / 知識処理 / 時系列分析 |
Outline of Annual Research Achievements |
代表的な知識蓄積型ソーシャルメディアであるWikipediaからは,計算機利用が容易な構造的データが知識グラフとして抽出され,検索結果の分類や種々の自 然言語処理に活用されている.知識グラフを充実させるためには,Wikipedia記事のマイニングにおいて,リンクやリスト,カテゴリなどの構造情報を活用し,さらに拡張する新たな手法が必要である.本課題では,(1)知識グラフの構造的拡張において, (1-a) 記事間のリンク予測および記事の分離統合予測問題, (1-b) Wikipediaリストの要素帰属問題およびテーブルスキーマ生成問題, (1-c) 実体リンキングへの応用からなる新たな課題に取り組む.また記事の時系列変化に着目した,(2) 編集履歴からの特徴的語句の抽出に取り組む. (3)ソーシャルメディアにおけるセンチメントの集約表現では,ツイートなどのソーシャルメディアにおける関心やムードの簡潔な集約表現を開発する. 本年度は,(1-a)のリンク予測問題について,記事間のリンク構造を,時刻印に従ったランダムウォークを行うことにより,記事のグラフ構造の埋め込みベクトルを学習し,それを用いてリンク予測を行う手法を提案した.従来のランダムウォークに対し,記事の意味的類似度も考慮することにより,精度が向上できることを示した. (2)については,バースト的に編集されている記事群から,そのバーストを特徴づける語句を抽出し,その時系列変化を表示することにより,複数の語句の編集活動度を比較できる手法を開発した. (3)では,ツィートの著者推定において,学習済み言語モデルにツィートの特徴的な書き方を学習させる手法で,精度の向上を示した.また,センチメント分析において,主観的か客観的かの分類問題に対し,正負のセンチメント分類等の類似タスクを加えたマルチタスク学習により,精度を向上できることを示した.
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
個々のテーマについて進捗が見られるとともに,発展した問題への端緒も得ている.
|
Strategy for Future Research Activity |
個々の基本テーマについて,継続して研究に注力するとともに,派生した新たな問題についても,取り組んでゆく.学習済み言語モデル等の深層学習における近年の手法も積極的に取り入れ,技術の先端性を確保する.
|