ゲノム配列に観察される複雑な規則性を記述するための配列情報の表現モデルを考案し、そのモデルに立脚した配列情報のモデル化技術と学習/予測アルゴリズムの開発に取り組んだ。これらの基礎的研究の成果を深化させ、タンパク質の遺伝子発見研究を中心とする応用研究を展開した。 矢田は、高度に汎化したHMMによる配列情報のモデル化と予測を行なうプログラムYEBISENを開発し、その特性を活かした2つの遺伝子発見モデルを設計した。 ひとつは複数の遺伝子発見プログラムを組み合わせて遺伝子を発見するモデル、もうひとつはシンテニー領域のアラインメントにおけるギャップの入り方の違いを利用して遺伝子を発見するモデルである。これらは各々、遺伝子発見プログラムDIGITとPHINALにまとめられた。これらの単体性能が従来法を大きく上回ることを示したばかりでなく、両者の併用がヒトゲノムの遺伝子発見を大きく実用に近づけることが確認された。 浅井は、BLAST相同性検索結果とab initio予測を組み合わせて統合的に遺伝子発見を行なう遺伝子発見モデルと予測アルゴリズムを開発し、それらを遺伝子発見プログラムGeneDecoderにまとめた。GeneDecoderは、麹菌ゲノムのアノテーションプロジェクトで中心的な役割りを果した。また、配列情報の表現モデルの設計と配列の特徴量の抽出を独立に行うことのできる確率モデル上のカーネル法を提案し、この枠組みがタンパク質配列およびRNA配列の分類問題に効果的であることを示した。
|