研究概要 |
複数種のゲノム配列から保存領域を高速に検出するシステムMurasakiの最新バージョンの性能評価を行った結果,マイコバクテリア5種のゲノム比較において,複数種のゲノム比較が可能な唯一の既存システムであるMauveと同精度のアンカーを検出することができた.さらに,酵母と糸状菌のゲノム比較,ヒト,マウス,ラットの3種のすべての染色体のゲノム比較を行ない,有意な結果を得ることができた.各計算時間は,マイコバクテリアの比較において2種で22秒,3種で42秒,5種で3時間,酵母と糸状菌で90秒,ヒト,マウス,ラットの染色体の比較で12分,という結果が得られた.ヒトなどの高等生物の複数種のゲノム比較を計算できる既存のシステムは存在しないため(Mauveは微生物ゲノムの大きさまでが適用の限界である. また,Pattern HunterやBLASTZなどは2種間のゲノム比較のみ適用可能である.),Murasakiの性能評価結果は非常によいものと言える. さらに,アンカーの出現頻度を用いた統計的解析の実験をヒトとマウス,酵母と糸状菌に対して試みたところ,いずれの解析においても,配列パターンの出現頻度はスケールフリーとなることが分かり,このスケールフリー性はランダム配列には現れないことから,そこに言語的構造が存在することが判明した.また,出現頻度に基づく単語の重み付けという統計言語的解析手法を適用して,アンカーの重要度を計算したところ,ノイズの効率的な除去が可能となり,さらに逆位などのゲノム再編成構造が明確に検出されるようになった. また,Murasakiによって計算したアンカーを可視化するためのインタラクティブなツールIGMVの開発も行った.GMVは,配列およびアンカーの情報に加えて,GenBankやGFF(Gene Feature Format)といったファイルからのアノテーション情報や発現プロファイルを重ねて表示することができる.
|