• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 課題ページに戻る

2018 年度 実績報告書

ビッグデータ駆動型科学のための仮説生成・検証法開発と材料,生物,医療分野での実証

研究課題

研究課題/領域番号 17H00758
研究機関名古屋工業大学

研究代表者

竹内 一郎  名古屋工業大学, 工学(系)研究科(研究院), 教授 (40335146)

研究分担者 二宮 嘉行  統計数理研究所, 数理・推論研究系, 教授 (50343330)
豊浦 和明  京都大学, 工学研究科, 准教授 (60590172)
安河内 彦輝  三重大学, 地域イノベーション推進機構, 助教 (60624525)
井上 圭一  東京大学, 物性研究所, 准教授 (90467001)
研究期間 (年度) 2017-04-01 – 2021-03-31
キーワード機械学習 / Selective Inference / 材料科学 / 生物科学 / 医療科学
研究実績の概要

本研究ではビッグデータに基づいて科学的発見を行うための計算機科学・統計科学技術の研究・開発とその実証である.前者においては,特に,複数の要因が複雑に関連する形式の仮説(以後,複合要因仮説と呼ぶ)の生成と検証を行うための方法を研究・開発することを目的としている.近年の機械学習技術の発展により,複数の要因を複雑に組み合わせた仮説を生成できる基盤が整っている.しかし,ビッグデータから選択された仮説は選択バイアスを持つため,その検証においては適切に選択バイアスを取り除くしくみが不可欠である.本研究では,この目的のため,近年統計科学分野で注目を集めている新たな枠組であるSelective Inferenceの考え方を導入するものである.Selective Inferenceにより,仮説が特定の機械学習によって選択されたことを条件付けたときの統計的推論が可能になると考えられる.後者においては,特に,生物科学,医療科学,材料科学分野で開発した方法の有効性を検証を行うものである.生物科学分野では共同研究者の協力のもと,光吸収型タンパク質のロドプシンの吸光波長の予測因子を発見する課題にとりくみ,また,医療科学分野では共同研究者の協力のもと,疾患感受性要因となる一塩基多型の組み合わせを同定する課題にとりくみ,材料科学分野では共同研究者の協力のもと,イオン伝導性物質の伝導度を効率的に推定する課題にとりくむものである.平成30年度においては,計算機科学・統計科学分野の研究開発として,複数要因の組み合わせのみでなく,特定の構造を持った複数要因の発見と検証を行う方法を開発した.

現在までの達成度 (区分)
現在までの達成度 (区分)

2: おおむね順調に進展している

理由

平成30年度においては,計算機科学・統計科学分野の研究開発として,複数要因の組み合わせのみでなく,特定の構造を持った複数要因の発見と検証を行う方法を開発した.特に,時系列などの系列データから予測対象に関連のある部分系列仮説を発見,検証する問題を考察した.系列データから組み合わせ要因を発見する枠組はデータマイニング分野で研究されている系列マイニングの様々な方法を活用した.本研究では,系列マイニングで得られた仮説の選択バイアスを取り除くため,ランダム化に基づく多重検定と選択的推論を利用する方法を開発した.生物科学分野では,タンパク質のアミノ酸配列から特定の性質を持つタンパク質に特徴的な部分配列を抽出し,その評価を行うツールを作成した.医療科学分野では,細胞培養の画像データに対して,細胞のタイプに応じて特徴的な時間変化を抽出し,その評価を行う方法を検討した.材料科学分野では,分子動力に基づくシミュレーション(MDシミュレーション)から特定の性質を持つ材料に特徴的な原子配置の変化を抽出し,その評価を行う方法を検討した.

今後の研究の推進方策

平成31年度においては,計算機科学・統計科学分野の研究開発として,不均一データを特徴づける因子の同定と評価を行う方法を構築する.不均一データを分析するにはクラスタリングなどの教師なし学習を用いて均一なグループに分ける必要がある.クラスタリングでグループ分けをする際には,全体として特徴量の似ている事例を同じグループに,似ていない事例を別のグループに分けることになる.このため,異なるクラスタ間の特徴は,クラスタリングの影響によってより大きく異なるようなバイアスが生じる.そのため,本研究では,Selective Inferenceと呼ばれる枠組を導入することでこのバイアスを取り除いたうえで,不均一データを特徴づける因子の評価を行う方法を開発する.生物科学分野,医療科学分野,材料科学分野のそれぞれにおいてデータ駆動型のアプローチが盛んに研究されているが,これらの分野の多くのデータは不均一なものである.生物科学分野では一細胞分析データの分析に,医療科学分野では精密医療データの分析に,材料科学分野では力学特性データの分析に上記の方法を適用する.

  • 研究成果

    (7件)

すべて 2018

すべて 雑誌論文 (3件) (うち査読あり 3件) 学会発表 (4件) (うち招待講演 2件)

  • [雑誌論文] Understanding Colour Tuning Rules and Predicting Absorption Wavelengths of Microbial Rhodopsins by Data-Driven Machine-Learning Approach2018

    • 著者名/発表者名
      Karasuyama Masayuki、Inoue Keiichi、Nakamura Ryoko、Kandori Hideki、Takeuchi Ichiro
    • 雑誌名

      Scientific Reports

      巻: 8 ページ: -

    • DOI

      https://doi.org/10.1038/s41598-018-33984-w

    • 査読あり
  • [雑誌論文] Bayesian-Driven First-Principles Calculations for Accelerating Exploration of Fast Ion Conductors for Rechargeable Battery Application2018

    • 著者名/発表者名
      Jalem Randy、Kanamori Kenta、Takeuchi Ichiro、Nakayama Masanobu、Yamasaki Hisatsugu、Saito Toshiya
    • 雑誌名

      Scientific Reports

      巻: 8 ページ: -

    • DOI

      https://doi.org/10.1038/s41598-018-23852-y

    • 査読あり
  • [雑誌論文] Knowledge-transfer-based cost-effective search for interface structures: A case study on fcc-Al [110] tilt grain boundary2018

    • 著者名/発表者名
      Yonezu Tomohiro、Tamura Tomoyuki、Takeuchi Ichiro、Karasuyama Masayuki
    • 雑誌名

      Physical Review Materials

      巻: 2 ページ: -

    • DOI

      https://doi.org/10.1103/PhysRevMaterials.2.113802

    • 査読あり
  • [学会発表] データ駆動型科学のための統計的推論法2018

    • 著者名/発表者名
      竹内一郎
    • 学会等名
      情報理論とその応用シンポジウム(SITA2018)
    • 招待講演
  • [学会発表] Selective Inference を用いた不均一データ分析のための統計的推論2018

    • 著者名/発表者名
      竹内一郎
    • 学会等名
      統計関連学会連合大会
    • 招待講演
  • [学会発表] ガウス過程の導関数に基づく極小点の同定のための能動学習2018

    • 著者名/発表者名
      稲津佑,椙田大輔,豊浦和明,竹内一郎
    • 学会等名
      第21回情報論的学習理論ワークショップ (IBIS2018)
  • [学会発表] そのクラスタ信用できますか? -クラスタ分割に対する統計的検証-2018

    • 著者名/発表者名
      井上茂乗,梅津佑太,竹内一郎
    • 学会等名
      第21回情報論的学習理論ワークショップ (IBIS2018)

URL: 

公開日: 2019-12-27  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi