2017 Fiscal Year Annual Research Report
Time Series Topic Extraction from Millions of Tweets after the East Japan Great Earthquake Considering Author's Role
Project/Area Number |
15K00314
|
Research Institution | Chiba University of Commerce |
Principal Investigator |
橋本 隆子 千葉商科大学, 商経学部, 教授 (80551697)
|
Co-Investigator(Kenkyū-buntansha) |
白田 由香利 学習院大学, 経済学部, 教授 (30337901)
久保山 哲二 学習院大学, 付置研究所, 教授 (80302660)
チャクラボルティ バサビ 岩手県立大学, ソフトウェア情報学部, 教授 (90305293)
|
Project Period (FY) |
2015-04-01 – 2018-03-31
|
Keywords | ソーシャルメディア解析 / 東日本大震災 / 二部グラフ / 話題抽出 / クラスタリング / データマイニング / 知識発見 / 著者の役割 |
Outline of Annual Research Achievements |
本研究では東日本大震災後に投稿された2 億件に及ぶTwitter データを対象とし,発言者の役割を反映した時系列話題解析とその評価を行った.SNS 上の話題構造は曖昧であり,同じ単語(例:「避難」)が複数の話題(「避難生活へ不安」,「原発からの避難」など)に異なった意味(位置付け)で属する場合が多く見られる.この「単語の位置付け」は「誰がどのグループで発言したか」という「発言者の役割」に依存すると考えられる.本研究では,発言者と単語の関係を2 部グラフで表し,発言者グループを抽出し,それを反映したクラスタリングを行うことで発言者の役割を推定し,解析精度を向上する手法を開発した.アルゴリズムはランダムウォークにより乱択化し,大規模データへの対応も行った. 結果として,30分(あるいは1時間)ごとの投稿者と単語の二部グラフを生成し,そのデータに提案手法を適用することで,LDA等の従来手法より精度の高い話題を抽出することが可能であると確認できた.特に「石油コンビナート爆発」といった決め打ちの単語を用いれば,デマのような特徴的な話題と,それを訂正しようとする話題,さらにそれらの時系列推移を抽出できることを示すことができた.しかし一方で,全く情報が与えられていない段階で新たに発生する特徴的な話題を早期に発見し,その成長パターンを予測することが困難であることも確認できた.今後は,新たに発生する特徴的な話題をいち早く発見し,それがどのような経過をたどるかを予測する手法を開発することで,社会への影響を測ることが可能となり,より的確なソーシャルメディア解析を行えるとの方向性を確認できた. 研究成果はICDM,BIGDATA等のトップカンファレンスで発表を行い,最先端の研究者との交流も実施した.招待講演も多数行った.
|