研究課題
平成27年度は、DNA配列を直接エンコーディングして深層学習に入力することを試みた。多くの試行錯誤を経て、深層学習の一種である畳み込みニューラルネットワーク(Convolutional Neural Network)をテキスト分類に用いたJohnsonらの研究に着目し、これをDNA配列分類に応用した。one-hot vectorを用いて配列を2値のマトリクス(バイナリイメージ)としてエンコーディングすることにより、連続性の情報を損なうことなく文字列を数値ベクトルに変換し、深層学習への入力とした。学習アルゴリズムとしては畳み込みニューラルネットワークを用い、最適なハイパーパラメータの組み合わせを探索し、交差検定により予測精度を求めた結果、10種類のヒストン修飾データセットと、UCI Machine Learning Repositoryで公開されている2種類のデータセット(SpliceおよびPromoter)について、従来法を上回る精度を達成することができた。また、学習済みのネットワークの各階層から、特徴情報を抽出することができた。一方、エンコーディング手法探索の過程で、ニューラルネットワークを用いた単語埋め込み(Word Embedding)も検討した。配列分類への応用は結局見送ったが、テキストマイニングを用いたドラッグリポジショニングが可能であることを示した。
3: やや遅れている
エンコーディング手法の探索と、最適なネットワーク構造およびハイパーパラメータの探索に、予想以上に時間を取られたため、アミノ酸配列を対象とした実験と、抽出した特徴の解釈を行うことができなかった。
平成28年度は、特定の生物種について次世代シーケンサによる配列決定を実際に行い、その結果得られた全く新しいゲノムDNA配列を対象として深層学習を行う。但し、対象とする生物サンプルを採取できる季節が10月以降に限られるため、それまでは前年度にやり残したアミノ酸配列を対象とした実験と、抽出した特徴の生物学的解釈を進める。
主に学会発表や論文投稿の遅れによる。
次世代シーケンサによる新規ゲノム配列決定の対象生物種を微生物から変更したことにより、ゲノムサイズが大きくなり、当初予定より外注費用が嵩む見込みである。次年度使用額は、主にこれに充てる予定である。
すべて 2016
すべて 雑誌論文 (2件) (うち査読あり 2件、 オープンアクセス 2件、 謝辞記載あり 2件)
Journal of Biomedical Science and Engineering
巻: 9 ページ: 280-286
10.4236/jbise.2016.95021
巻: 9 ページ: 7-16
10.4236/jbise.2016.91002