ゲノム配列からの高次圧縮・クラスタリングによる知識発見

研究課題

研究課題/領域番号	13208002
研究種目	特定領域研究(C)
配分区分	補助金
審査区分	生物系
研究機関	東京大学
研究代表者	稲葉真理東京大学, 大学院・理学系研究科, 講師 (60282711)
研究分担者	定兼邦彦東北大学, 大学院・情報科学研究科, 助手 (20323090) 今井浩東京大学, 大学院・情報理工学系研究科, 教授 (80183010)
研究期間 (年度)	2000 – 2001
研究課題ステータス	完了 (2001年度)
配分額 *注記	4,000千円 (直接経費: 4,000千円) 2001年度: 4,000千円 (直接経費: 4,000千円)
キーワード	DNA配列 / ゲノム検索 / 接尾辞配列 / 圧縮接尾辞配列
研究概要	ゲノム計回では様々な生物のDNA配列の解読が進んでおり,さらにDNA配列中のタンパク質のコーディング領域の推定や,タンパク質の機能の予測などが行われている.また,異なる生物のDNAやアミノ酸配列の間の類似度を計算し,それによつて構造や機能の予測や,進化系統樹の解析が行われている。本研究ではこれらの問題に対する文字列の高次圧縮の研究を目指した.具体的には、文字列を圧縮したまま高速に検索するデータ構造の研究を行った.特に,様々な問題を解く際に用いることができる汎用的な索引の研究を行った.ヒトゲノム27億塩基に対して、任意のパタンを検索可能を索引である接尾辞配列のサイズは約11Gバイトであるが、それを約2Gバイトに圧縮した。索引を圧縮することでコンピュータのメモリ内に格納することが可能になり,高速検索が行える.任意のパタンの高速検索が可能な接尾辞配列の圧縮に関する研究はごく最近に始まったものであり,まだ理論的な結果のみが示されているのみである.実際に索引を構成している例もあるが,データ量はあまり大きくない.本研究では大量のデータに対して実際に索引を作成している.圧縮された索引を用いて配列を検索する場合・圧縮されていない索引を用いた場合と同じアルゴリズムを使えるが,アルゴリズムによっては速度が低下する場合がある.また,索引生成時に必要なメモリ量が大きいため,索引の生成にはスーパーコンピュータを用いてこの問題点を解決した。