2015 Fiscal Year Research-status Report
2億件超の東日本大震災ツイッターデータからの発言者の役割を反映した時系列話題解析
Project/Area Number |
15K00314
|
Research Institution | Chiba University of Commerce |
Principal Investigator |
橋本 隆子 千葉商科大学, 商経学部, 教授 (80551697)
|
Co-Investigator(Kenkyū-buntansha) |
白田 由香利 学習院大学, 経済学部, 教授 (30337901)
久保山 哲二 学習院大学, 付置研究所, 教授 (80302660)
チャクラボルティ バサビ 岩手県立大学, ソフトウェア情報学部, 教授 (90305293)
|
Project Period (FY) |
2015-04-01 – 2018-03-31
|
Keywords | ビッグデータ解析 / ソーシャルメディア解析 / 東日本大震災 / ツイッター解析 / 特徴抽出 / 時系列話題抽出 |
Outline of Annual Research Achievements |
東日本大震災後21日間に投稿された2億件に及ぶTwitterデータ(15G)を対象として,発言者の役割を反映した時系列話題解析とその評価を行っている. まず 「1) 開発環境整備」として,実験データのクリーニングを行い,発言者と単語の関係を1時間ごとの時系列2部グラフで表現した.さらに 「2) 時系列話題解析アルゴリズム開発Phase1」として,実験データに対して,オリジナルの特徴抽出手法であるCWCを用いて,各時間ごとの特徴語抽出を行った.特徴語の変化(距離)を時系列で計算することにより,大きく距離が変化した時刻に大きなイベントが発生したと判定し,時系列のイベントの抽出手法を提案した.CWC は高速かつ高性能の特徴抽出アルゴリズムであり,通常の手法(LDA等)ではリーズナブルな時間で解析できないビックデータの解析を行うことができる.特徴語抽出→距離測定→イベント判定を繰り返し行うことで,イベントのより詳細な内容を解析することが可能となっている.また,「3)発言者の役割推定アルゴリズム開発」の開発として, GENETIC ALGORITHMS の一つである BC ヒューリスティックや Median ヒューリスティックを用いて,発言者と単語の時系列2部グラフから話題抽出を行う手法も開発している.従来手法(LDA)との比較を行うことで,高速かつ高精度のソーシャルメディア解析手法を開発を行っている.研究成果を広く公表するために,UCLA(米国)にて Social Data Analysis Seminar を,チュラルンコン大学(タイ)にて,Big Data Analytics : Method and Applications セミナーを実施した.両セミナーとも多くの参加者に恵まれ,UCLA及びタイの研究者と研究の方向性や今後のコラボレーションについて議論する機会を得た.
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
平成 27 年度は,大規模解析のための開発環境整備[(1)]及び,発言者と単語の2部グラフ生成とそれに基づく発言者の役割推定アルゴリズムの開発・実験[(2)]を行い,時系列話題解析[(3)]にはNMF(Non-negative Matrix Factorization),LDA等の話題抽出手法をオンライン化・乱択化して用いる予定とし,その開発もスタートするという予定であった. 大規模解析のための開発環境整備[(1)] としては,2億件のTwitterデータのデータクリーニングを行い,発言者と単語の関係を1時間ごとの時系列2部グラフで表現し,データベースに蓄積する処理を行った.これにより,今後のアルゴリズム開発,実験が非常に容易になった.さらに発言者と単語の2部グラフ生成とそれに基づく発言者の役割推定アルゴリズムの開発・実験[(2)]においては,GENETIC ALGORITHMS の一つである BC ヒューリスティックや Median ヒューリスティックを用いて,発言者と単語の時系列2部グラフから話題抽出を行う手法の開発を行っている.本アルゴリズムは既存手法(LDA) が話題抽出に数時間かかるところを数十秒で実現することを目指したものであり,現在のところ順調に開発が進んでいる.時系列話題解析[(3)]としては,既存手法(LDA)を乱択化するのではなく,オリジナルの特徴抽出手法CWCを開発し,それを適用することで,高速かつ高精度で時系列に話題を抽出できる手法の開発に取り組んでいる.高速なCWCはすでに開発済であり,それを利用した時系列話題抽出手法を28年度に完成させる予定である.
|
Strategy for Future Research Activity |
平成28年度は,前年度の発言者の役割推定の結果を時系列話題解析へ反映するアルゴリズム[(3)]を開発する.対象 Twitterデータによる実験[(3)]も行う. 1)時系列話題解析アルゴリズム開発 現在,GENETIC ALGORITHMS の一つである BC ヒューリスティックや Median ヒューリスティックを用いて,発言者と単語の時系列2部グラフから話題抽出を行う手法の開発を行っており,単位時間ごとの話題を抽出するモジュールはすでに完成している.ここから重なりを許した形式での話題抽出手法をさらに開発し,時系列上の話題変化を追跡するアルゴリズムを開発する.通常,1時間ごとでは,20-30万件の単語,15万件の発言者からなる行列が得られる.これらをLDAを用いて解析しても,数時間以上の処理時間がかかり,実用的ではない.今回開発している手法ではこれを数十秒〜1分で行うことをめざしている.単位時間ごとの話題抽出は数十秒で実施できており,その後の重なりを許した話題抽出,時系列追跡についても高効率なアルゴリズムを開発可能であると考える. 2)対象データに対する実験(既存手法との比較も実施) また,28年度は,提案手法を用いて2億件のTwitterデータに対する時系列話題解析実験を行い,その効果を確認する.既存手法をによる実験も併せて行い,提案手法が既存手法に比べて,如何に優れているかを示していく.実験結果は論文化し,広く論文発表をおこなっていく.
|
Causes of Carryover |
物品費として、開発環境となるPC(MacBook Pro)を購入予定であったが、27年度、最新の機種が発売されず(28年度発売される予定)、購入を見送ったため、30万円ほどの残額が発生してしまった。
|
Expenditure Plan for Carryover Budget |
28年度に最新型の開発環境用PC(MacBook Pro)を購入予定である。その際、最新型のスペックのものを28年度の物品費の予算の一部を足して購入する。
|
Research Products
(10 results)