2020 Fiscal Year Annual Research Report
Artificial intelligence for sequence similarity search
Project/Area Number |
18K18143
|
Research Institution | Tohoku University |
Principal Investigator |
山田 和範 東北大学, 情報科学研究科, 准教授 (20756217)
|
Project Period (FY) |
2018-04-01 – 2021-03-31
|
Keywords | 人工知能 / 配列解析 / 生物学的文字列 |
Outline of Annual Research Achievements |
アミノ酸プロファイルは位置特異的置換行列(PSSM)とも呼ばれる,アミノ酸配列に対して計算可能な,アミノ酸の進化情報を有する行列データです.このPSSMを用いることで,アミノ酸配列の類似性検索やアミノ酸配列の進化解析をすることが可能となる,配列解析をする際に最も基本となる情報のひとつです.興味のあるアミノ酸配列のPSSMを構築するのにはとても大きな時間がかかります.本研究では,文字列を処理することが可能な人工知能である再帰型ニューラルネットワーク(RNN)の中でも(研究開始時点において)特に性能が高い超短期記憶(LSTM)を用いて,PSSMを高速に構築する方法を開発しました.具体的には,高性能ですがPSSMの構築にとても大きな時間がかかるPSSM生成法を用いて,研究開始当時に得られる冗長性を除いたすべてのアミノ酸配列に対してPSSMを構築し,それらを用いてLSTMを成長させました.最終的に開発したPSSM生成法,SPBuildの性能は構築したPSSMを利用した配列類似性検索の感度と偽陽性率,また,PSSM生成の速さを主な評価指標として評価しましたが,厳密なPSSMを構築可能な方法と比較した場合,偽陽性率に対する感度は遜色ない一方で,その計算の速さは数百倍になりました.また,人工知能を用いない簡易的なPSSM構築法と比較した場合,計算の速さは劣るものの,偽陽性率に対する感度は約2倍となりました.SPBuildは,誰でも利用できるように公開しています.また,本研究ではさらに,新たなRNNの開発に取り組みました.LSTMの学習の際にとても大きな時間がかかったためです.様々なトポロジーを持つRNNをランダムに大量に生成し,それらをベンチマークすることでコンパクトで高性能なRNNである,YamRNNを開発しました.YamRNNもTensorFlowで利用可能な状態で公開しています.
|
Research Products
(1 results)