2015 Fiscal Year Research-status Report
オープンデータ活用のためのデータ統合・可視化サイトに関する研究
Project/Area Number |
15K11997
|
Research Institution | Tokai University |
Principal Investigator |
山本 義郎 東海大学, 理学部, 教授 (80301943)
|
Project Period (FY) |
2015-04-01 – 2018-03-31
|
Keywords | オープンデータ / データベース / データ解析システム |
Outline of Annual Research Achievements |
本研究は,インターネット上に公開されている統計情報,地理情報などのオープンデータ を活用し,他の情報と結合し,統計解析やデータの可視化に取り組んでいる。特にWeb 上のデータの可視化については科学研究費を獲得し新たな方法も提案している。近年では,Twitter やブログなどインターネット上に拡散されている情報を要約し,Web 上の地図と連携することで,地域に関連する有用な情報の可視化が可能となる。本研究計画では,インターネットと統計解析システムを利用して,オープンデータや地理情報を有効に活用した,新たな統計データの可視化の実現と,そのような可視化に必要なデータを統計解析可能な形に統合し,解析や可視化を実現するシステムを構築することを目的として申請する。
今年度の計画は、(1)「インターネット上のオープンデータをWebAPI 等で自動収集する方法の調査・開発」として、国内のオープンデータについて調査を行うとともにExcel、R、PHP などでデータを取得する方法について整理する。データ解析コンペ、スポーツデータ解析コンペで利用可能なオープンデータの取得方法について優先して調査し、コンペ参加者への情報提供を行うこと、(2) SNSからの情報収集方法とオープンデータと統合する方法の開発Twitter からの情報収集および興味対象のデータについてデータの蓄積も並行して行う。過去情報のとりやすいBlog などからの情報収集やFacebook やgoogle+などからの情報収集についても調査研究を進める。データベースに保有する方法と、R などでリアルタイムに分析する方法、Shiny などでサーバーアプリケーションにする方法などについても研究し、単純なシステムから開発を行うことである。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
今年度の計画はとしては、(1)「インターネット上のオープンデータをWebAPI 等で自動収集する方法の調査・開発」および、(2) SNSからの情報収集方法とオープンデータと統合する方法の開発であり、それぞれについて進捗を以下に示す。 (1)「インターネット上のオープンデータをWebAPI 等で自動収集する方法の調査・開発」として、国内のオープンデータについて調査を行うとともにExcel、R、PHP などでデータを取得する方法について整理するためにWebからの情報収集にとどまらず、国内外の学会、研究集会においても情報収集を行った。データ解析コンペ、スポーツデータ解析コンペで利用可能なオープンデータの取得方法について優先して調査し、コンペ参加者への情報提供を行った。 (2) SNSからの情報収集方法とオープンデータと統合する方法の開発に関しては、Twitter からの情報収集および興味対象のデータについてデータの蓄積に関して調査および研究をすすめた。データベースに保有する方法と、R などでリアルタイムに分析する方法、Shiny などでサーバーアプリケーションとしてユーザがインタラクティブにデータ取得、解析できる方法についても研究し、単純なシステムの構築を開始した。
|
Strategy for Future Research Activity |
上記(1)(2)については、平成27年度の成果を活かし以下を進める。 (1)は、データ解析コンペ、スポーツデータ解析コンペで利用可能なオープンデータについては、データ提供サイトという位置づけから、解析や視覚化をまで実施可能なシステムへと開発を進める。他大学の学部生へシステムを開放するとともにフィードバックを受ける。また、NTTデータ数理システムや日本NAGなどとの共同研究により、統計解析システムにオープンデータを取り込む方法について共同開発を行ない、研究協力研究者との情報共有を行う。(2)は、ソーシャル・ネットワークからの情報収集結果について、テキストマイニングによる可視化方法について、サーバーアプリケーションとして有用な方法について研究を進める。R を使った解析としてはRMeCab、KH coder などがあるが、その他の方法についても研究を行う。Shiny などでサーバーアプリケーションにする場合の実装方法についても研究し、サーバアプリケーションの構築を行う。また、企業との共同研究によりテキストマイニングソフトウァアでのソーシャルネットワークデータの取得方法・処理方法について研究し、実際のシステムに実装する方法についても研究する。 (3) 統合されたデータをWeb上で解析・可視化するシステムの開発については、(1)(2)の研究成果として、データ統合をWeb を利用して行う方法について、まず現状でその種のサービスを提供しているサイトについて調査し、基本的なサービスについて構築する。その際に、統計解析、統計的可視化によりデータ統合サイトが、よりわかりやすい可視化を行えるように配慮するとともに、可視化方法についても更に開発を進める。可視化法についてはプロトタイプから、複数のデバイスに対する対応の必要が有るため、プログラム作成補助として大学院生数名を雇用することを計画している。
|
Causes of Carryover |
差額については10万円未満であり、当初計画に大きな違いはない。
|
Expenditure Plan for Carryover Budget |
差額については10万円未満であり、使用計画に大きな相違はない
|