2016 Fiscal Year Annual Research Report
Fundamentals of Data Science: Creation of DandD Instance Library
Project/Area Number |
26330048
|
Research Institution | Keio University |
Principal Investigator |
柴田 里程 慶應義塾大学, 理工学部(矢上), 名誉教授 (60089828)
|
Project Period (FY) |
2014-04-01 – 2017-03-31
|
Keywords | データサイエンス / データの変容 / データの活用 / オープンデータ / e-stat / TextilePlot / DandD / R |
Outline of Annual Research Achievements |
本研究の最終年度である平成28年度は,これまでの研究成果を集大成するとともに外部の研究者の評価を受け,それを成果に反映することに重点を置いて研究を進めた. 具体的な成果物はすでに http://datascience.jp/TRAD.html で公開しており,2本の柱よりなる.一つはデータ活用環境 TRAD ( TextilePlot, R and DandD ),もう一つが 厚労省患者調査データのDandDインスタンスライブラリである. 前者は,データサイエンス実践に当たりいつも最初の障害となる「データの変容」を理論面から強力にサポートするソフトウエア環境として集大成されており,数十万記録,数千変量のデータでもストレスなく扱うことができる.またTextilePlot よる中立な視覚化により,データの背後に潜む現象を直観的に捉えることができるようになった.さらに,TRADの備えるデータ解析環境Rとシームレスな連携機能により,具体的な解析やモデル構築はRで,TextilePlot による視覚化による全体的な把握という使い分けをすることで,より的確な解析を効率的に行い,眠っているデータの活用に新しい道を開く強力な環境を構築できた. もう一本の柱は,e-stat に代表されるオープンデータのDandD ライブラリーの構築である.本研究では,もっとも複雑に入り組んだオープンデータと言われる厚労省患者調査データを対象にその300以上のデータファイルをTRADによりインスタンスライブラリとして効率的に構築することに成功した.その過程で得た数々の知見は,TRADの設計に反映されている.特に様々なフィルター機能,Frequency に代表される適切なデータ型の設定機能は,本ライブラリーの構築に限らず広く役立つ機能であることが実証された.
|