• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 課題ページに戻る

2017 年度 実績報告書

ディープラーニングを用いた大規模配列データからの階層的特徴抽出

研究課題

研究課題/領域番号 26330328
研究機関金沢大学

研究代表者

佐藤 賢二  金沢大学, 電子情報学系, 教授 (10215783)

研究期間 (年度) 2014-04-01 – 2018-03-31
キーワードテキスト分類 / 畳み込みニューラルネットワーク / スプライス部位 / プロモータ / 単語埋め込み / 次世代シーケンサ / ゲノム配列決定
研究実績の概要

本研究ではまず、配列の分類と予測を行っている事例について文献調査を行った後、DNA配列を直接エンコーディングして深層学習に入力することを試みた。いくつかの手法を検討した後、深層学習の一種である畳み込みニューラルネットワーク(CNN)をテキスト分類に用いたJohnsonらの研究に着目し、これをDNA配列分類に応用した。one-hot vectorを用いて配列をバイナリイメージとしてエンコーディングすることにより、連続性の情報を損なうことなく文字列を数値ベクトルに変換し、深層学習への入力とした。最適なハイパーパラメータの組み合わせを探索し、交差検定により予測精度を求めた結果、10種類のヒストン修飾データセットと2種類のベンチマークデータセットについて、従来法を上回る精度を達成することができた。また、学習済みのネットワークの各階層から、特徴情報を抽出することができた。また、エンコーディング手法探索の過程で、ニューラルネットワークを用いた単語埋め込みを検討した結果、テキストマイニングを用いたドラッグリポジショニングが可能であることを示した。その一方で、全く新しいDNA配列に対する特徴抽出能力を評価するために、能登地方に自生するキノコの一種を対象として、2種類の株についてゲノム配列の構築を試みた。ショートリードデータから、不完全ながらも数千個の遺伝子を同定し、近縁種のキノコと比較を行った。最終年度にはロングリードの配列決定およびRNA-seqによる遺伝子領域決定を行い、これらを総合してドラフトゲノム配列を構築した。並行して、大規模配列データからの新たな特徴抽出法について研究を行い、数量的特徴とカテゴリカルな特徴を組み合わせることで配列分類の予測精度を改善できることを明らかにした。

  • 研究成果

    (1件)

すべて 2017

すべて 雑誌論文 (1件) (うち査読あり 1件、 オープンアクセス 1件)

  • [雑誌論文] Combined Use of k-Mer Numerical Features and Position-Specific Categorical Features in Fixed-Length DNA Sequence Classification2017

    • 著者名/発表者名
      Phan,D., Nguyen,N.G., Lumbanraja,F.R., Faisal,M.R., Abapihi,B., Purnama,B., Delimayanti,M.K., Kubo,M., Satou,K.
    • 雑誌名

      Journal of Biomedical Science and Engineering

      巻: 10 ページ: 390-401

    • 査読あり / オープンアクセス

URL: 

公開日: 2018-12-17  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi