研究実績の概要 |
代表的な知識蓄積型ソーシャルメディアであるWikipediaからは,計算機利用が容易な構造的データが知識グラフとして抽出され,検索結果の分類や種々の自然言語処理に活用されている.知識グラフを充実させるためには,Wikipedia記事のマイニングにおいて,リンクやリスト,カテゴリなどの構造情報を活用し,さらに拡張する新たな手法が必要である.本課題では,(1)知識グラフの構造的拡張において, (1-a) 記事間のリンク予測および記事の分離統合予測問題, (1-b) Wikipediaリストの要素帰属問題およびテーブルスキーマ生成問題, (1-c) 実体リンキングへの応用からなる新たな課題に取り組む.また記事の時系列変化に着目した,(2) 編集履歴からの特徴的語句の抽出に取り組む. (3)ソーシャルメディアにおけるセンチメントの集約表現では,ツイートなどのソーシャルメディアにおける関心やムードの簡潔な集約表現を開発し,Wikipediaの成長過程との対比を可能にすることを目指す.本年度は,(1-a)の分離統合予測問題について,長大な記事における,節単位の類似度の分布から得られる特徴量,および記事のトピックに適応させた単語埋め込みを用いて,弁別器を訓練することにより,標準的な手法よりも精度良く予測できることを示した.(1-b)(1-c)に関して,知識グラフにおける枝の補完問題について,実体の属するクラス集合を新たに利用することにより,精度を向上できることを示した.(2)に関して,編集履歴においてバースト的に編集されている語句の間で,バーストの時系列の類似性を求めることにより,語句間の時間的類似度を求める方法を示した.(3)では,ツィートにおけるユーザごとのセンチメントの分布傾向を求め,これをツィートの著者推定に応用する手法を示した.
|