研究概要 |
オープンなソーシャルメディアであるTwitterの情報を蓄積し、キーワード、位置情報を抽出、蓄積するシステムの開発を行った。大規模データを扱うため、HadoopおよびHiveを用いてシステムの実装を行った。このシステムを用いて、全国的、および、各地域毎の話題の抽出を行った。 このシステムを用いて、位置情報付きのTweetsの割合を調査したところ、データ全体56,376,438のうち、134,226、およそ0.24%であった。また、位置情報付きTweetを投稿するユーザは、全体4,826,951のうち、13,720、およそ0.28%であった。つまり、Twitterのデータにおける位置情報付きのデータは、非常に少ないことが分かった。 位置情報付きデータの少ない原因の1つは、正確な場所と時間の情報の公開による、プライバシー問題によるものと思われる。この問題を克服し、地域毎の話題の抽出を行うためには、ユーザの大まかな位置の特定を行う必要がある。 大まかな位置の特定に、地域メッシュコードを用い、位置情報付きのTweetにもとづき、地域特有のキーワード集合を特定した。この集合にもとづき、Twitterユーザの大まかな位置の推定を行い、各地域のユーザが用いたキーワードにもとづき地域毎の話題の抽出を行った。特定の地域として、広島西部を用い、地域のスポーツ、観光地の話題が抽出できることを確認した。また、特定のテーマとして、原発を用い、Twitterユーザが近隣原発の報道に関心を示すことを確認した。
|
今後の研究の推進方策 |
次の3つの課題3,4,5について検討を行う。 研究課題3「同義語および同音異義語の判別手法の活用」:ウィキペディアを用いた、同義語および同音異義語の判別手法を用いて、地域間の用語用法の関連を抽出し、地域情報分析システムに導入する。 研究課題4「地域情報分析システムの構築」:収集蓄積したデータや、抽出、分類した地域、時間的パターンを閲覧、分析できるシステムを開発する。 抽出した話題を多様な側面から閲覧できるように、情報閲覧方法として、キーワード、話題共有グループ、期間、地域にもとづくデータ閲覧の仕組みを開発する。 研究課題5「携帯端末を用いたコンテンツ生成,編集,公開システム」(端末ソフトウェアの開発):GPS付き携帯端末を用いた地域情報提示システム、位置情報および経路記録システムを開発する。GPS付き携帯端末にはAndroid端末を用い、ローカルコミュニティのイベントで設定された巡回地点の表示や検索、経路情報を記録するソフトウェアを開発する。
|