2017 Fiscal Year Annual Research Report
Hierarchical Feature Extraction from Large Sequence Data by Deep Learning
Project/Area Number |
26330328
|
Research Institution | Kanazawa University |
Principal Investigator |
佐藤 賢二 金沢大学, 電子情報学系, 教授 (10215783)
|
Project Period (FY) |
2014-04-01 – 2018-03-31
|
Keywords | テキスト分類 / 畳み込みニューラルネットワーク / スプライス部位 / プロモータ / 単語埋め込み / 次世代シーケンサ / ゲノム配列決定 |
Outline of Annual Research Achievements |
本研究ではまず、配列の分類と予測を行っている事例について文献調査を行った後、DNA配列を直接エンコーディングして深層学習に入力することを試みた。いくつかの手法を検討した後、深層学習の一種である畳み込みニューラルネットワーク(CNN)をテキスト分類に用いたJohnsonらの研究に着目し、これをDNA配列分類に応用した。one-hot vectorを用いて配列をバイナリイメージとしてエンコーディングすることにより、連続性の情報を損なうことなく文字列を数値ベクトルに変換し、深層学習への入力とした。最適なハイパーパラメータの組み合わせを探索し、交差検定により予測精度を求めた結果、10種類のヒストン修飾データセットと2種類のベンチマークデータセットについて、従来法を上回る精度を達成することができた。また、学習済みのネットワークの各階層から、特徴情報を抽出することができた。また、エンコーディング手法探索の過程で、ニューラルネットワークを用いた単語埋め込みを検討した結果、テキストマイニングを用いたドラッグリポジショニングが可能であることを示した。その一方で、全く新しいDNA配列に対する特徴抽出能力を評価するために、能登地方に自生するキノコの一種を対象として、2種類の株についてゲノム配列の構築を試みた。ショートリードデータから、不完全ながらも数千個の遺伝子を同定し、近縁種のキノコと比較を行った。最終年度にはロングリードの配列決定およびRNA-seqによる遺伝子領域決定を行い、これらを総合してドラフトゲノム配列を構築した。並行して、大規模配列データからの新たな特徴抽出法について研究を行い、数量的特徴とカテゴリカルな特徴を組み合わせることで配列分類の予測精度を改善できることを明らかにした。
|
Research Products
(1 results)
-
[Journal Article] Combined Use of k-Mer Numerical Features and Position-Specific Categorical Features in Fixed-Length DNA Sequence Classification2017
Author(s)
Phan,D., Nguyen,N.G., Lumbanraja,F.R., Faisal,M.R., Abapihi,B., Purnama,B., Delimayanti,M.K., Kubo,M., Satou,K.
-
Journal Title
Journal of Biomedical Science and Engineering
Volume: 10
Pages: 390-401
Peer Reviewed / Open Access