研究課題/領域番号 |
17H00758
|
研究機関 | 名古屋工業大学 |
研究代表者 |
竹内 一郎 名古屋工業大学, 工学(系)研究科(研究院), 教授 (40335146)
|
研究分担者 |
二宮 嘉行 九州大学, マス・フォア・インダストリ研究所, 准教授 (50343330)
豊浦 和明 京都大学, 工学(系)研究科(研究院), 研究員 (60590172)
安河内 彦輝 三重大学, 地域イノベーション推進機構, 助教 (60624525)
井上 圭一 名古屋工業大学, 工学(系)研究科(研究院), 准教授 (90467001)
|
研究期間 (年度) |
2017-04-01 – 2021-03-31
|
キーワード | 機械学習 / Selective Inference / 生物科学 / 医療科学 / 材料科学 |
研究実績の概要 |
本研究の目的はビッグデータに基づいて科学的発見を行うための計算機科学・統計科学技術の研究・開発とその実証である.前者においては,特に,複数の要因が複雑に関連する形式の仮説(以後,複合要因仮説と呼ぶ)の生成と検証を行うための方法を研究・開発する.近年の機械学習技術の発展により,複数の要因を複雑に組み合わせた仮説を生成できる基盤が整っている.しかし,ビッグデータから選択された仮説は選択バイアスを持つため,その検証においては適切に選択バイアスを取り除くしくみが不可欠である.本研究では,この目的のため,近年統計科学分野で注目を集めている新たな枠組であるSelective Inferenceの考え方を導入する.Selective Inferenceにより,仮説が特定の機械学習によって選択されたことを条件付けたときの統計的推論が可能になると考えられる.後者においては,特に,生物科学,医療科学,材料科学分野で開発した方法の有効性を検証する.生物科学分野では共同研究者の井上の協力のもと,光吸収型タンパク質のロドプシンの吸光波長の予測因子を発見する課題にとりくむ.また,医療科学分野では共同研究者の安河内の協力のもと,疾患感受性要因となる一塩基多型の組み合わせを同定する課題にとりくむ.さらに,材料科学分野では共同研究者の豊浦の協力のもと,イオン伝導性物質の伝導度を効率的に推定する課題にとりくむ.
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
平成29年度においては,計算機科学・統計科学分野の研究開発として,スパース高次交互作用モデルの同定と評価を行う方法を構築した.スパース交互作用モデルとは,複数の特徴の高次交互作用項のスパース線形結合で表わされる回帰や分類などの予測モデルである.スパース高次交互作用モデルの同定は,候補となる高次交互作用項の数が膨大であるため,既存のスパースモデル推定アルゴリズムを利用することができない.そのため,本研究では,高次交互作用項の木構造を構築し,枝刈りを行うことですべての高次交互作用を考慮せずにスパース高次交互作用モデルを同定する方法を構築した.また,その方法において選択された仮説の選択バイアスを除去するため,Selective Inferenceの枠組を導入し,現実的な計算コストで選択バイアス補正を行う方法を構築した.生物科学,医療科学,材料科学分野での実証として,主に,データベースの整備を行った.生物科学分野では,ロドプシンタンパク質のアミノ酸配列と吸光波長の関係を記録したデータベースを作成した.医療科学分野では,一塩基多型と循環器系疾患の疾患の関連を記録したデータベースを作成した.また,材料科学分野ではイオン伝導物質の構造とイオン伝導度の関係を記録したデータベースを作成した.
|
今後の研究の推進方策 |
平成30年度においては,複数要因の組み合わせのみでなく,特定の構造を持った複数要因の発見と検証を行う方法を研究開発する.具体的には,系列データから予測対象に関連のある部分系列仮説を発見,検証する問題,グラフデータから予測対象に関連のある部分グラフ仮説を発見,検証する問題を考察する.このような仮説を発見,検証するため,系列マイニングやグラフマイニングの方法を導入し,それらのマイニングアルゴリズムによって同定された仮説の選択バイアスをSelective Inferenceによって取り除く方法を検討する.生物科学,医療科学,材料科学における実証研究では,平成29年度に構築したそれぞれの分野のデータベースに提案法を適用し,その有効性を検証する.生物科学分野では,アミノ酸配列から吸光波長を高める要因を同定することを目指す.医療科学分野では,疾患感受性に影響を与える一塩基多型の組み合わせを同定することを目指す.材料科学分野では高イオン伝導性を持つ物質に教室した構造を発見することを目指す.
|