研究課題
ゲノム配列が解読された真核生物種を対象に、4〜8連塩基頻度のSOMマップを作成した。高次元ベクトルの大量情報を対象にするので、地球シミュレータを用いた大規模計算を行った。8連塩基については回文型配列にのみ着目した。各生物種で特徴的な出現頻度を持つオリゴヌクレオチドを網羅的に探索することを可能にした。マウスの完全長cDNAをSOM解析したところ、protein-codingとnoncoding cDNA(ncRNA)で分離する傾向にあった。前者については5'と3'UTR、CDSの3領域に分割し、ncRNAを含めた4カテゴリーについてSOMを行ったところ、カテゴリーによる分離が起きており、SOMが各機能領域の配列上の特徴を識別すること判明し、各機能領域を特徴付けるシグナル配列類を抽出できた。SOM解析で得られた特徴的な連文字配列の生物学的な意味を知るためには、各連文字配列について、実験的な研究を報告した文献類を組織的に参照することが重要になる。この文献検索の過程で蓄積する検索情報を「GenomeWordDictionary」と呼ぶ新規なデータベースとして構築した。4連続塩基は完成し、5連続塩基を編纂中である。Venterらはバーミューダ沖の海中微生物群の混合ゲノムDNAを回収し、80万本の断片配列を決定し約120万の遺伝子の候補を推定した。SOMは新規性の高い配列類の系統分類に最適な方法である。10kb以上の配列がデータベースに収録されている約1500種の既知原核生物種の総計1Gbの配列を5kbに断片化し、4連続塩基頻度のSOMを行い25の系統群への分類を解析したところ、約85%の配列が正しい系統を反映して分離していた。Venterらの環境由来の大量な断片配列を、そのSOM上へマップすることで、約12,000の新規配列を92の属へ帰属できた。
すべて 2005 2004
すべて 雑誌論文 (4件)
Nature Biotechnology 23
ページ: 88-93
Canadian Journal of Microbiology (In press)
Proceedings of the Institute of Statistical Mathematics 52
ページ: 207-215
Proceedings of Information-Based Induction Sciences
ページ: 94-99