2012 Fiscal Year Research-status Report
ソーシャルメディアの横断的解析に基づく東日本大震災の評判分析
Project/Area Number |
24500180
|
Research Category |
Grant-in-Aid for Scientific Research (C)
|
Research Institution | Chiba University of Commerce |
Principal Investigator |
橋本 隆子 千葉商科大学, 商経学部, 准教授 (80551697)
|
Co-Investigator(Kenkyū-buntansha) |
白田 由香利 学習院大学, 経済学部, 教授 (30337901)
久保山 哲二 学習院大学, 付置研究所, 准教授 (80302660)
|
Project Period (FY) |
2012-04-01 – 2015-03-31
|
Keywords | 東日本大震災 / ソーシャルメディア / データマイニング / 横断分析 / 国際情報交換 |
Research Abstract |
対象ソーシャルメディアを決定し,データの収集・整理を行った.ビッグデータを処理する環境を整備するために,UCLAとの共同研究を開始した.データ解析のためのシステムのプロトタイピングも実施した. 1) データの収集整理:ソーシャルメディアの横断的解析のため,ブログ,Twitter,動画コメント,口コミサイトから震災関連の書き込みを収集した.岩手県のNPO法人 SAVE IWATEから提供を受けたブログ「番屋日報」は,被災者のニーズの変化が感じ取れる内容となっており,ソーシャルメディア上の評判形成プロセスの評価に非常に有用である. Twitterは,3月9日以降で震災関連のハッシュタグが付加されたTweet 約90万件を対象とし,検索・評価を行っている.ニコニコ動画のコメントは,時間軸上のコメント数推移計測,単語の抽出を実施し,ソーシャルメディア横断的な評価を行う準備が整った. 2) 環境整備: ビッグデータの処理にあたり,UCLAの研究者とのコラボレーションを開始した.UCLAの計算機資源を利用できることになり,我々サイドで計算機環境の整備を行うことなく,大量のTwitterデータの数え上げ・検索等が可能となっている. 3) システム開発: 重要語抽出部及び話題構造グラフ可視化部を開発した.重要語抽出の指標としてLSAを用い,次元圧縮により隠れトピックを解析する手法を実現した.話題構造の可視化には単語の共起に基づく有効グラフを利用し,ネットワーク分析手法の一つであるモジュラリティ指標により話題の抽出を行った.グラフ構造の編集距離算出により時系列評価を行い,ソーシャルメディア上の話題の遷移を解析した.今回開発した編集距離算出手法は,ソーシャルメディアの書き込みの特徴を踏まえつつ,高速で計算可能な方法である.時系列行列分解手法など,より効果的と思われる手法についても検討中である.
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
平成24年度の目標は,対象ソーシャルメディアデータの収集・整理を行い,ビッグデータを処理可能な実験環境を整備するとともに,ソーシャルメディア上での話題解析のためのシステムのプロトタイピングを行うことであった. 対象ソーシャルメディアは,被災地のNPO法人の協力もあり,順調にデータ収集ができたと考える.すでにブログ約150日分,Twitterデータ 約90万件,ニコニコ動画 約200件,口コミサイトデータ 約400件のデータ収集が終わっており,ソーシャルメディアの横断検索を行うにあたり十分なデータが収集できたと考える.またビッグデータ処理については,UCLAの研究者(Dr. David Shepard 他,Digital Humanities,UCLA)とのコラボレーションを開始し,UCLAの計算機センターの資源を利用できることになった. 約90万件のTwitterデータを処理するためには,メモリサイズが十分に大きく高速に計算可能な実験環境が必要であるが,その整備にはコストも時間もかかる.UCLAの資源が活用できるようになったことは非常に大きな意味を持つ.すでに複数のデータの解析(検索・数え上げ)が終了しており,データの交換や議論がメールベースで始まっている.また,ソーシャルメ ディアの書き込みデータに関して,LSAを利用して重要語抽出を行い,語の共起 構造その結果を基に時系列グラフ構造を作成するプロトタイプの開発も実施し,.話題構造が変化を定量的に解析できる環境も整いつつある.グラフ構造をベースにしたネットワーク解析に加え,行列構造をベースにした3次元テンソル展開にも取り組み始めており,より効率的な解析手法についての検討も進んでいる.
|
Strategy for Future Research Activity |
今年度は重要語抽出・話題構造抽出の改良を行いつつ,各メディアに共通して現れた話題構造,時間的なずれをもって発生した話題構造,特定のメディアにしか見られなかった話題構造などを横断的に評価する. 1) ソーシャルメディアの横断的評価:ブログ,Twitter,動画コメント,口コミサイト各々を解析し,Burstしているポイント,特徴的な単語等を解析する.その後,それらがメディア横断的に相関していたか,時系列上での関連性が認められるかを評価する.Twitterの解析にあたっては,効率的な計算機環境を確保するためにも,UCLA のDr. David Shepardチームとのコラボレーションをさらに推進する. 2) システム開発 :重要語抽出,話題構造抽出のシステム開発をさらに進める.LSAに加え,pLSIも評価する.さらに共起関係をベースとしたグラフ構造に加え,行列構造をベースとした3次元テンソル展開手法にも取り組む.ソーシャルメディア上に現れる話題は,境界があいまいであり,動的に生成・消失する.そうした特徴に合致するようにシステムを改良する.それとともにソーシャルメディアの横断的な関係を可視化可能なシステムのプロトタイピングを行う. 4)モデル化:3)システム開発による可視化の結果,構造変化量をベースに,各メディアに共通 して現れた話題構造,時間的なずれをもって発生した話題構造,特定のメディアにしか見られなかった話題構造 などを評価する.口コミサイト,インターネット動画,マイクロブログといった各ソーシャルメディアの評判形 成の特徴を明らかにする. 経過の発表(橋本,白田,久保山):得られた知見は報告として順次論文発表する.
|
Expenditure Plans for the Next FY Research Funding |
以下のように研究費を使用する予定である. <物品費>金額:40万円(橋本),用途:PC購入,開発環境・デモ環境整備のための物品購入. 内容:UCLAとのコラボレーションにより,大規模な計算機環境の整備をする必要はなくなったが,システム開発のための開発環境構築・整備のために必要なPC,物品を購入する. <旅費>金額:20万円(久保山),40万円(橋本),内容:成果を学会等で発表するとともに,共同研究者とのFace2Face Meetingのための滞在費に利用する. <人件費・謝金>金額:20万円(橋本),内容:データ整備のためのアルバイト代,システム開発やデータ解析にあたっての識者のアドバイスへの謝金とする. <その他>金額:20万円(橋本),内容:プロトタイプシステムの改良にあたり,一部を開発委託する.その業務委託費に利用する.
|
Research Products
(7 results)