研究課題/領域番号 |
16K08638
|
研究機関 | 東北大学 |
研究代表者 |
田宮 元 東北大学, 東北メディカル・メガバンク機構, 教授 (10317745)
|
研究分担者 |
植木 優夫 久留米大学, 付置研究所, 准教授 (10515860)
|
研究期間 (年度) |
2016-04-01 – 2019-03-31
|
キーワード | ゲノム / 遺伝学 / 機械学習 |
研究実績の概要 |
平成28年には、入力とする表現型の選抜とそのスケーリングの検討、深層学習のための多層ニューラルネットをデザインし、テストデータを与えて、特徴表現学習のトレーニングとフィードバックを行った。このプロトタイピングをもとに、健康状態変数を抽出するための深層学習アルゴリズムのソフトウェア実装を実施している。 具体的には、以下の手順で行った。実際のコホートデータに含まれる表現型について、そのデータ型やスケールを整理し、各表現型間の相関構造などを事前に調査して、入力に用いることのできる表現型計測値を選択し、入力に適したスケーリングを行った。ここで、入力データの次元数が決定された。ニューラルネットワークは、入力層、中間層、出力層からなり、各層の初期ユニット数は、上記で決定された入力データの次元数によって増減された。中間層のユニット数はランダムに設定し、最終的に成績のよいユニット数を採用した。事前に学習用のサンプルデータを使ってネットワークの適合学習を実施しており、この際、中間層のユニット数とネットワークの初期重み変数をランダムに設定し、複数種類のネットワークを生成し、学習後に各ネットワークの推定精度を評価し、最も成績のよいネットワークを採用した。これらの学習時には、過学習を避けるために推定精度を逐次チェックしている。 以上につき、ソフトウェア実装を行っている。特に、計算負荷の高い確率勾配降下法などは、安価で高速なsupercomputingを可能とするGPGPU(General Purpose Graphical Processing Unit)技術を採用した。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
本研究計画は、深層学習の枠組みを利用して、高次元の表現型計測データから健康状態変数を特徴表現抽出するためのソフトウェアを開発し、これをADNI(800人余りのアルツハイマー病コホート)のような公開ゲノムコホートデータや東北メディカル・メガバンク機構で収集されている数万人規模の大規模ゲノムコホートデータへ適用して、遺伝子×遺伝子ならびに遺伝子×環境相互作用の同定を可能にするものである。 平成28年度における進捗は当初の研究計画に沿って予定通り実施されている。
|
今後の研究の推進方策 |
平成28年度に作成されたソフトウェアを、実際のゲノムコホートデータの解析に応用する。具体的には、以下の方策にて推進する。 平成28年度に作成された深層学習ソフトウェアを、ADNIデータや東北メディカル・メガバンク機構で収集された表現型データに適用し、特徴表現抽出を行い、健康状態変数として定義する。必要に応じて、健康状態変数値に対応する実際の健康状態変化をprospectiveに記録し、今後の更なる応用に備える。また、上記の健康状態変数を応答変数とし、ゲノムワイドSNPs情報、環境因子(生活習慣)、その相互作用項を全て説明変数として含めて、高次元変数選択法によるアソシエーション解析を行う。高次元変数選択手法としては、申請者がこれまでの研究で罰則付き回帰(Sure Independence Search; SIS)を実装したソフトウェアプログラムを利用する。これらの手順で同定された遺伝子や環境因子、その相互作用を機能的な情報でアノテーションし、リストアップして、追試研究に提供する。
|