2018 Fiscal Year Annual Research Report
ビッグデータ駆動型科学のための仮説生成・検証法開発と材料,生物,医療分野での実証
Project/Area Number |
17H00758
|
Research Institution | Nagoya Institute of Technology |
Principal Investigator |
竹内 一郎 名古屋工業大学, 工学(系)研究科(研究院), 教授 (40335146)
|
Co-Investigator(Kenkyū-buntansha) |
二宮 嘉行 統計数理研究所, 数理・推論研究系, 教授 (50343330)
豊浦 和明 京都大学, 工学研究科, 准教授 (60590172)
安河内 彦輝 三重大学, 地域イノベーション推進機構, 助教 (60624525)
井上 圭一 東京大学, 物性研究所, 准教授 (90467001)
|
Project Period (FY) |
2017-04-01 – 2021-03-31
|
Keywords | 機械学習 / Selective Inference / 材料科学 / 生物科学 / 医療科学 |
Outline of Annual Research Achievements |
本研究ではビッグデータに基づいて科学的発見を行うための計算機科学・統計科学技術の研究・開発とその実証である.前者においては,特に,複数の要因が複雑に関連する形式の仮説(以後,複合要因仮説と呼ぶ)の生成と検証を行うための方法を研究・開発することを目的としている.近年の機械学習技術の発展により,複数の要因を複雑に組み合わせた仮説を生成できる基盤が整っている.しかし,ビッグデータから選択された仮説は選択バイアスを持つため,その検証においては適切に選択バイアスを取り除くしくみが不可欠である.本研究では,この目的のため,近年統計科学分野で注目を集めている新たな枠組であるSelective Inferenceの考え方を導入するものである.Selective Inferenceにより,仮説が特定の機械学習によって選択されたことを条件付けたときの統計的推論が可能になると考えられる.後者においては,特に,生物科学,医療科学,材料科学分野で開発した方法の有効性を検証を行うものである.生物科学分野では共同研究者の協力のもと,光吸収型タンパク質のロドプシンの吸光波長の予測因子を発見する課題にとりくみ,また,医療科学分野では共同研究者の協力のもと,疾患感受性要因となる一塩基多型の組み合わせを同定する課題にとりくみ,材料科学分野では共同研究者の協力のもと,イオン伝導性物質の伝導度を効率的に推定する課題にとりくむものである.平成30年度においては,計算機科学・統計科学分野の研究開発として,複数要因の組み合わせのみでなく,特定の構造を持った複数要因の発見と検証を行う方法を開発した.
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
平成30年度においては,計算機科学・統計科学分野の研究開発として,複数要因の組み合わせのみでなく,特定の構造を持った複数要因の発見と検証を行う方法を開発した.特に,時系列などの系列データから予測対象に関連のある部分系列仮説を発見,検証する問題を考察した.系列データから組み合わせ要因を発見する枠組はデータマイニング分野で研究されている系列マイニングの様々な方法を活用した.本研究では,系列マイニングで得られた仮説の選択バイアスを取り除くため,ランダム化に基づく多重検定と選択的推論を利用する方法を開発した.生物科学分野では,タンパク質のアミノ酸配列から特定の性質を持つタンパク質に特徴的な部分配列を抽出し,その評価を行うツールを作成した.医療科学分野では,細胞培養の画像データに対して,細胞のタイプに応じて特徴的な時間変化を抽出し,その評価を行う方法を検討した.材料科学分野では,分子動力に基づくシミュレーション(MDシミュレーション)から特定の性質を持つ材料に特徴的な原子配置の変化を抽出し,その評価を行う方法を検討した.
|
Strategy for Future Research Activity |
平成31年度においては,計算機科学・統計科学分野の研究開発として,不均一データを特徴づける因子の同定と評価を行う方法を構築する.不均一データを分析するにはクラスタリングなどの教師なし学習を用いて均一なグループに分ける必要がある.クラスタリングでグループ分けをする際には,全体として特徴量の似ている事例を同じグループに,似ていない事例を別のグループに分けることになる.このため,異なるクラスタ間の特徴は,クラスタリングの影響によってより大きく異なるようなバイアスが生じる.そのため,本研究では,Selective Inferenceと呼ばれる枠組を導入することでこのバイアスを取り除いたうえで,不均一データを特徴づける因子の評価を行う方法を開発する.生物科学分野,医療科学分野,材料科学分野のそれぞれにおいてデータ駆動型のアプローチが盛んに研究されているが,これらの分野の多くのデータは不均一なものである.生物科学分野では一細胞分析データの分析に,医療科学分野では精密医療データの分析に,材料科学分野では力学特性データの分析に上記の方法を適用する.
|
Research Products
(7 results)