2000 年度実績報告書

情報表現モデルによるゲノム配列情報のモデル化と予測

研究課題

研究課題/領域番号	12208010
研究種目	特定領域研究(C)
研究機関	理化学研究所
研究代表者	矢田哲士理化学研究所, ゲノム情報比較解析研究チーム, 研究員 (10322728)
研究分担者	浅井潔工業技術院, 電子技術総合研究所, 主任研究官
キーワード	ゲノム / ヒト / 遺伝子 / アノテーション / コンピュータ / アルゴリズム / ソフトウェア
研究概要	本研究課題では、情報表現モデルによるゲノム配列情報のモデル化と予測として、ヒト遺伝子の予測問題を取り上げた。ヒトゲノムにおける遺伝子の注釈付けは、幾つかの遺伝子発見プログラムによる解析を経て、複数のプログラムによって支持された領域をエキソンとして拾い集めることで行なわれる。しかし、このようにして集められた領域は、遺伝子としての読み枠が保たれているとは限らず、また、複数のプログラムで支持された領域でも、各プログラムが与えたスコアが低い場合、その領域を拾うべきか否かは甚だ疑問である。我々は、読み枠の問題に対して隠れマルコフモデル、スコアの問題に対してベイズ推定を応用し、それらを組み今わせた情報表現モデルを遺伝子発見アルゴリズムとともに考案した。この成果は、ヒト遺伝子の予測プログラムDIGITにまとめられ、その予測精度は従来法を大きく上回ることが検証された。さらに、我々は、ヒトの全ドラフト配列データをアセンブリングし、ヒトゲノムの再構築データベースを開発し、DIGITによるヒト遺伝子数の推定を行った。また、エキソン領域に観察されるコーディングポテンシャルやスプライス部位などに観察される確率的なコンセンサス配列の情報だけでなく、ホモロジー検索の結果やアミノ酸レベルの統計的特徴などを統合して遺伝子を同定する情報表現モデル、マルチストリームHMMを開発した。本年度は、BLASTによる相同性検索の結果とDNA塩基配列情報を同時に取り込み、確率的に最適な遺伝子構造を予測するシステムを開発した。注意深くコンパイルされたデータセットを用いて、この情報表現モデルの予測精度の検証を行なった結果、相同性情報を用いない場合に比べてエキソン基準による予測率が約10%向上することが示された。