• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 課題ページに戻る

2015 年度 実施状況報告書

データサイエンスの基盤:クラウドを活用したDandDインスタンスライブラリの構築

研究課題

研究課題/領域番号 26330048
研究機関慶應義塾大学

研究代表者

柴田 里程  慶應義塾大学, 理工学部, 名誉教授 (60089828)

研究期間 (年度) 2014-04-01 – 2017-03-31
キーワードデータサイエンス / インターデータベース / TextilePlot / R / DandD
研究実績の概要

データサイエンス実践基盤確立のため,これまでのDandD (Data and Description) ルールをさらに深化させ,より高度なデータサイエンス実践の環境を提供することが本研究の最終目的である.本年度は,前年度までに構築したインターデータベース支援環境TRAD ( TextilePlot, R and DandD )の一層のブラッシュアップを図るとともにその実証実験を行った.そのことで官公庁の公開データを中心に豊富なDandDインスタンスライブラリ構築も促進できた.また,その過程で新たな研究課題として浮かび上がってきた,空間自己回帰過程の新たな推測法の開発や,外れ値に対して頑健な最小距離推定法の理論的な裏付けなど,理論面の研究も併せて行なった.
インターデータベース支援環境TRADは汎用な高次元可視化手法 TextilePlotを基本的なユーザインタフェースとしているため,重要でありながらこれまで容易ではなかった,データ解析を始める前にデータを総体的に眺めるチェックが自然に行えるようになり,Rとの緊密な連携も相まってより自由で高度な解析が適切に行える環境としてかなり完成の域に近づいた.その過程で,さまざまな非正規なデータの正規化,適切なデータ解析に必要なデータ型,Rへの受け渡しをスムーズにするために最低限必要な属性など,さまざまな知見が得られたほか,IDの扱いやビッグデータに対応するためのアルゴリズムの改良など,プログラミングレベルでの様々な知見も得られた.TRADは,すべて JAVA 言語で書かれているため,さまざまなOSの元で稼働でき,クラウド技術の進歩と相まって,巨大なデータに対しても十分その機能を発揮できることが確認できた.特に空間データや生態系のデータなど,さまざまな広がりをもった大規模なデータに関して,その威力を発揮する.

現在までの達成度 (区分)
現在までの達成度 (区分)

1: 当初の計画以上に進展している

理由

クラウド技術の発展やプログラミング技術の発展,計算環境の改善,大規模な実データの入手が容易になったことなどで,研究計画の進行が加速された.
また,国内外の研究者との緊密な連携がはかれたことも,研究計画実施を加速した.
初年度に,これまでのクライエント・サーバシステムを脱却し,スタンドアローンのTRADに作り替えたことも,その後の研究促進に大きな力となった.
さらにいうならば,著書「データ分析とデータサイエンス」の執筆や,各方面からの注目度の向上も,本研究のモチベーションを保つ上でおおきな力となった.

今後の研究の推進方策

本年度は最終年度であるので,研究計画の完成に向けて,プロダクト TRAD のより一層のブラッシュアップを図り,投稿論文としてもまとめる.また,海外の研究者との連携を深めることで,研究成果の国際的な評価と発信に最大限努力する.また,年度初めに計算機環境の大幅な増強を行うことで,いわゆるビッグデータにも十分対応できるだけのインターデータベース支援環境の完成を目指す.

次年度使用額が生じた理由

研究補助を目的として、専門知識を有する研究協力者を雇用する計画だったが、適当な人材を確保することが できなかったため、未使用額が発生した.

次年度使用額の使用計画

本年度は最終年度であるので,8月から9月にかけ,海外から研究者を招聘し,研究成果の総合的な評価を行っていただき,それを反映した研究成果のとりまとめにあたり,投稿論文の作成を行う.また11月から12月にかけ,取りまとめた研究成果をもって関連する海外の研究者のもとへ出張し,その成果の普及にあたる.

  • 研究成果

    (7件)

すべて 2016 2015 その他

すべて 雑誌論文 (2件) (うち査読あり 2件、 オープンアクセス 1件) 学会発表 (3件) 図書 (1件) 備考 (1件)

  • [雑誌論文] Asymptotic Distribution of Cramer-von Mises Statistic When Contamination Exists2016

    • 著者名/発表者名
      M. Naka and R. Shibata
    • 雑誌名

      International Journal of Statistics and Probability

      巻: 5 ページ: 90-97

    • DOI

      10.5539/ijsp.v5n1p90

    • 査読あり / オープンアクセス
  • [雑誌論文] A good approximation of the Gaussian likelihood of simultaneous autoregressive model which yields us an asymptotically efficient estimate of parameters2016

    • 著者名/発表者名
      Y. Rikimaru and R. Shibata
    • 雑誌名

      Journal of Statistical Planning and Inference

      巻: 173 ページ: 31-46

    • DOI

      10.1016/j.jspi.2016.01.003

    • 査読あり
  • [学会発表] データサイエンス実践の統合支援環境 TRAD2015

    • 著者名/発表者名
      柴田里程,横内大介
    • 学会等名
      統計関連学会連合大会
    • 発表場所
      岡山大学(岡山県・岡山市)
    • 年月日
      2015-09-09
  • [学会発表] 空間斉次自己回帰モデルのフィッシャー情報量行列の正則条件2015

    • 著者名/発表者名
      力丸佑紀,柴田里程
    • 学会等名
      統計関連学会連合大会
    • 発表場所
      岡山大学(岡山県・岡山市)
    • 年月日
      2015-09-08
  • [学会発表] Robustness of Cramer-von Mises statistic under contiguous type contamination2015

    • 著者名/発表者名
      仲真弓,柴田里程
    • 学会等名
      統計関連学会連合大会
    • 発表場所
      岡山大学(岡山県・岡山市)
    • 年月日
      2015-09-08
  • [図書] データ分析とデータサイエンス2015

    • 著者名/発表者名
      柴田里程
    • 総ページ数
      260
    • 出版者
      近代科学社
  • [備考] データサイエンスコンソーシアム

    • URL

      http://datascience.jp

URL: 

公開日: 2017-01-06  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi