現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
平成24年度の目標は,対象ソーシャルメディアデータの収集・整理を行い,ビッグデータを処理可能な実験環境を整備するとともに,ソーシャルメディア上での話題解析のためのシステムのプロトタイピングを行うことであった. 対象ソーシャルメディアは,被災地のNPO法人の協力もあり,順調にデータ収集ができたと考える.すでにブログ約150日分,Twitterデータ 約90万件,ニコニコ動画 約200件,口コミサイトデータ 約400件のデータ収集が終わっており,ソーシャルメディアの横断検索を行うにあたり十分なデータが収集できたと考える.またビッグデータ処理については,UCLAの研究者(Dr. David Shepard 他,Digital Humanities,UCLA)とのコラボレーションを開始し,UCLAの計算機センターの資源を利用できることになった. 約90万件のTwitterデータを処理するためには,メモリサイズが十分に大きく高速に計算可能な実験環境が必要であるが,その整備にはコストも時間もかかる.UCLAの資源が活用できるようになったことは非常に大きな意味を持つ.すでに複数のデータの解析(検索・数え上げ)が終了しており,データの交換や議論がメールベースで始まっている.また,ソーシャルメ ディアの書き込みデータに関して,LSAを利用して重要語抽出を行い,語の共起 構造その結果を基に時系列グラフ構造を作成するプロトタイプの開発も実施し,.話題構造が変化を定量的に解析できる環境も整いつつある.グラフ構造をベースにしたネットワーク解析に加え,行列構造をベースにした3次元テンソル展開にも取り組み始めており,より効率的な解析手法についての検討も進んでいる.
|
今後の研究の推進方策 |
今年度は重要語抽出・話題構造抽出の改良を行いつつ,各メディアに共通して現れた話題構造,時間的なずれをもって発生した話題構造,特定のメディアにしか見られなかった話題構造などを横断的に評価する. 1) ソーシャルメディアの横断的評価:ブログ,Twitter,動画コメント,口コミサイト各々を解析し,Burstしているポイント,特徴的な単語等を解析する.その後,それらがメディア横断的に相関していたか,時系列上での関連性が認められるかを評価する.Twitterの解析にあたっては,効率的な計算機環境を確保するためにも,UCLA のDr. David Shepardチームとのコラボレーションをさらに推進する. 2) システム開発 :重要語抽出,話題構造抽出のシステム開発をさらに進める.LSAに加え,pLSIも評価する.さらに共起関係をベースとしたグラフ構造に加え,行列構造をベースとした3次元テンソル展開手法にも取り組む.ソーシャルメディア上に現れる話題は,境界があいまいであり,動的に生成・消失する.そうした特徴に合致するようにシステムを改良する.それとともにソーシャルメディアの横断的な関係を可視化可能なシステムのプロトタイピングを行う. 4)モデル化:3)システム開発による可視化の結果,構造変化量をベースに,各メディアに共通 して現れた話題構造,時間的なずれをもって発生した話題構造,特定のメディアにしか見られなかった話題構造 などを評価する.口コミサイト,インターネット動画,マイクロブログといった各ソーシャルメディアの評判形 成の特徴を明らかにする. 経過の発表(橋本,白田,久保山):得られた知見は報告として順次論文発表する.
|