研究課題/領域番号 |
23656370
|
研究機関 | 早稲田大学 |
研究代表者 |
渡辺 仁史 早稲田大学, 理工学術院, 教授 (40063804)
|
研究分担者 |
林田 和人 早稲田大学, 理工学術院, 准教授 (10277759)
木村 謙 早稲田大学, 理工学術院, 講師 (10277824)
高柳 英明 滋賀県立大学, 環境科学部, 准教授 (70344968)
遠田 敦 東京理科大学, 理工学部, 助教 (90468851)
|
キーワード | ビックデータ / Twitter / データサイエンス / テキストマイニング / 感情表現単語 / 都市ブランディング |
研究概要 |
平成24年度は、ソーシャル・ネットワーキング・サービス上の情報を機械的に収集し、解析することで、建築や都市にまつわる過去の状況を把握、現状の理解、将来の予測に活用することを目的に都市利用者の分析手法と災害時の感性的な表現と地理的な関係に関して検討を行った。 前者では、都市の特性をソーシャル・ネットワーキング・サービスの利用者の特徴を分析し、その利用者の行動場所をジオタグから追跡することで、都市の特性を明らかにした。まず、得られたデータのうちジオタグを地図にプロットし、駅周辺にジオタグ集まっていることを明らかにした。次に、Twitterから取得してきたデータのうち、テキストから利用者の単語頻度を利用者ごとに計算した。さらに、利用者が付けているジオタグから駅400mに入った回数で単語頻度を重み付けし、全員分を足し合わせることで駅商圏の特性を明らかにする手法を確立した。 実社会的に有意義な点としては、利用者の需要がこのモデルから導き出せるため、都市のブランディングやマーケティングに活用可能な点である。 また後者の研究では、Twitterに投稿されたデータテキストデータの解析を元に、東日本大震災前後に投稿された記事における感性的単語と地理情報との関係を検討した。具体的には感情や印象を形容する8つの語句を抽出し、被災地周辺(震央から半径300[km]圏内)とそれ以外の地域にてその語句が掲載されている記事の増減数を比較した。このうち、被災地周辺で著しく変化している感情表現単語2つについて、共起される単語頻度を集計した。震災前には特に災害に関連した単語は出現していないものの、震災後では「地震」や「揺れ」というなど揺れることに関連する単語が出現するようになった。それに対して被災地以外の地域では、「地震」を除いて20位までには登場しておらず、被災地との関心の差が伺えた。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
おおむね順調に進展中している。当初フォーカスする主題であったソーシャル・ネットワーキング・サービスから見た都市像の解析フローを確認し、それ以外にも災害というキーワードから都市を考察したためである。
|
今後の研究の推進方策 |
本年度の研究としてフォーカスする点は以下の3つの研究とWeb上での情報公開である。 ・都市のブランディングに向けた都市圏・利用者の分析:昨年度は都市の利用者の特性を単語頻度で抽出し、その利用者がある特定の駅周辺に入った回数をカウントしたが、より利用者に沿った商圏の確立することと、都市部ブランディングに活用するための基礎研究を行う。具体的には利用者のジオタグをクラスタリングすることで、商圏を明確に定める。また、抽出する単語の組み合わせから利用者がどういう話題に言及しているかを追求する。同時に、これらの単語頻度を各商圏ごとにまとめあげる。これらから、単語という観点で都市のブランドを確立する上での指針を得る事が出来る。 ・災害に関わる分析:災害時間経過とともに、感情表現が変化して行く。被災地周辺の感情表現を抽出し、将来の予測に活用したいと考えている。また、メディアより早く局所災害の位置と場所を特定し、警告を住民に出すためのシステムを作成したい。 ・自然災害時の危険となる場所の調査とCAD上での可視化:今まで蓄積されてきたデータにより、危険な場所がTwitter上に記されてきている。そこで、ジオタグのあるテキストで、危険をほのめかす単語から危険な場所を検索する。同時に、すべてのテキストデータを用いて、危険と関連のある場所を共起度から抽出する。これらのデータをGISで分析し、CAD上でのシミュレーションに活用する。 ・今までの成果のWeb上の可視化:今までの成果はオープンデータであるTwitterの貢献によるものである。そのために、本研究においても、成果をオープンデータとしてWebで公開することを考えている。これらの成果をjson形式のファイルに書き出し、リアルタイムに更新されて行くシステムを構築する。
|
次年度の研究費の使用計画 |
今年度の反省点として、データ解析にかかる時間を短縮し、何度も試す発見的手法を行うことが重要であったと思われる。そのために、データサイエンスに関わる知識を持った上で、性能の良いコンピュータを数台を平行して分析し続けることが必要であった。 そのために、次年度の研究費として主に研究に関わるコストとコンピュータに充てた。まず、データサイエンスに関わる知識を教育するために、研究費を人件費と本代をに用いることにした。また、本研究で用いている機械学習の特徴として、コンピュータのメモリがボトルネックになりがちなために、大容量のメモリが搭載可能なコンピュータを数台計上する。これにより、データ分析を即座に何度も行い、より良い成果を導こうとしている。
|