研究概要 |
この研究は,離散的な記号列とそれらが作り出すソフトなパターンを発見するための汎用アルゴリズムを開発し,それを用いてDNA配列あるいはアミノ酸配列中の機能部位を,in silicoにて予測することを目的としている.そして,その基本的な手法はソフトコンピューティングとなっている.ただし,重要な構成員として,ウェットバイオロジーの研究者が参加している.平成18年度においては,DNA配列中プロモータ予測とアミノ酸配列におけるドメインリンカーの位置予測において十分な成果を挙げることができた. DNA配列中のプロモータ予測については,ヒトのDNAを対象とした,方法としては,まず,TrueとFalseの学習データとテストデータを用意し,True学習データについて「GC-rich」とそうでない場合とに分けた.次いで記号頻度を用いて数値化し,主成分分析による前処理を行った後,研究代表者らが開発した独立成分分析を適用し,定量的に{プロモータ有り,なし}を判定する機構を実現した.この性能は,{PREC,SPEC,SENS}={0.632,0.537,0.824}であり,2006年8月の時点で世界最高性能であった.ただし,この数値はさらに高度化できるはずであり,2007年度の研究に引き継がれている. ドメインリンカーの予測は,同程度に高度な問題である.この問題はタンパク質の3次元構造と関連している.タンパク質の3次元構造全体をいきなり推定することの成功度は低く,今のところ世界のどの機関も成功していない.この問題において,部分折りたたみ同士を結びつけるリンカーを予測して全体の構造予測法の複雑度を軽減させることに成算があるということが分かった. 以上の成果に基づいて,2007年度にはサポートベクトルマシンを利用できる態勢が整い,さらに性能が上がる見込みがついている.
|