2017 Fiscal Year Research-status Report
ソーシャルメディアからの構造的知識の抽出と投稿意図分析
Project/Area Number |
16K00423
|
Research Institution | Waseda University |
Principal Investigator |
岩井原 瑞穂 早稲田大学, 理工学術院(情報生産システム研究科・センター), 教授 (40253538)
|
Project Period (FY) |
2016-04-01 – 2019-03-31
|
Keywords | ソーシャルメディア / ユーザ行動分析 / 実体リンキング / テキストマイニング / 意味的関連性 / 時系列分析 / クラスタリング |
Outline of Annual Research Achievements |
WikipediaやFacebookに代表されるソーシャルメディアは,多数のユーザの投稿で成立するユーザ参加型メディアである.本年度は,ソーシャルメディアの先導的応用の観点から次の2つのテーマについて研究を行った.(1)時間経過を考慮した構造的知識の抽出では,編集履歴を有する記事集合から,バースト的に編集が行われた文やフレーズを抽出する.類似したバースト系列をクラスタリングすることで,編集履歴上の関連性が深いフレーズのクラスタを求めることができた.処理時間の高速化のために,時系列の分割を適宜行う手法を開発している.またGoogle Trendなどで得られるフレーズの注目度の時間的変化と,本研究でのバースト系列を比較して,検索傾向と同様なバーストが生じている例や,バーストの継続時間が異なる例など興味深い傾向が観察された.実体リンキングについては,深層学習を用いる手法と,Wikipediaでのリンク構造から得られる記事の品質指標を組み合わせて,リンキングの推定精度を上げる手法を開発した.また,Wikipediaの記事からのリンク先として,記事全体はあるいはより詳細な節を求めるリンクスコープの問題について,テキストの類似度の分布に関する新たな指標を用いることにより,精度を向上できることを示した. (2)ソーシャルメディアにおける投稿の意図分析では,ユーザプロファイルと公開投稿のデータ収集を行った.投稿の文章に対し,センチメント分析を適用して,正負の極性ならびに主観的か客観的か,および分の長さ等の多次元データにより,投稿パターンのクラスタリングを行った.安定性および品質等の指標でクラスタリングの最適化を行い,5つの類型を求めた.そしてこれらの類型が,ユーザが参加している公開グループにより顕著に異なる分布を示していることが分かった.
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
各設定テーマについて,それぞれ手法の開発ならびに実装を行い,評価結果が得られており,今後さらに改良に取り組むことが可能であるため.
|
Strategy for Future Research Activity |
今後は,これまでに開発した手法をさらに改良するとともに,評価実験を進めてゆく.時間経過を考慮した構造的知識の抽出では,多量の記事からのバースト的なフレーズを効率よく求めるために,候補となるフレーズの抽出アルゴリズムならびにバースト検出アルゴリズムの改良を行う.さらに,現実世界で注目を集めた事件が,Wikipediaの記事ではどのようなバーストとして反映されるかを調査する.そして実世界での注目度の変化と,Wikipediaの編集履歴でのバーストについて,時間的なずれやバースト度,生存期間の違い等から,バーストの特徴付けを行う. 実体リンキングについては,深層学習を用いた手法にカテゴリ階層を組み込んだ改良を行い,ベンチマークテストにより評価実験を行う.さらに,類似した実体をひとつのテーブルにまとめて表示するためのスキーマを発見する手法について設計を行う.また,Wikipedia記事において,内容の重複等によりマージされるべき記事のペアを発見する手法を,記事の意味的類似度の分布の特徴から推定する手法の開発を行う. ソーシャルメディアにおける投稿の意図分析では,センチメント分析から求めた,ユーザの投稿類型や,その他列挙したユーザプロファイル属性について,あらたに潜在的な投稿モデルを設計する.ユーザの投稿類型は,いくつかの典型的な投稿類型の中から確率的に選ばれるという仮定のもとで,観測される投稿類型の分布と最もよく適合するモデルを求める手法を開発する.これらをもとに,公開グループに属するユーザの類型化や,ツイートの話題ごとの投稿類型の違いを発見する手法について研究を行う予定である.
|
Research Products
(6 results)