Project/Area Number |
12208019
|
Research Category |
Grant-in-Aid for Scientific Research on Priority Areas (C)
|
Allocation Type | Single-year Grants |
Review Section |
Biological Sciences
|
Research Institution | The University of Electro-Communications |
Principal Investigator |
菅原 研 電気通信大学, 大学院・情報システム学研究科, 助手 (50313424)
|
Project Period (FY) |
2000
|
Project Status |
Completed (Fiscal Year 2000)
|
Keywords | ゲノム / データ圧縮空間 / タンパク / アミノ酸配列 / 分類 / 機能予測 |
Research Abstract |
現在、タンパク質の構造・機能をDNA配列・アミノ酸配列から正確に予測する技術は確立されておらず、配列の全体的な類似性に基づいて遺伝子の機能を予測するホモロジー検索と、機能的に似ている配列に共通に出現するパターンを使って機能を推定するモチーフ検索により機能推定がなされている。ホモロジー検索のための手法として、DP、BLAST、FASTAなどのアルゴリズムがあげられるが、本研究は、このホモロジー検索の観点から、辞書式圧縮法によるデータ圧縮空間(渡辺,1997)という概念を用いて配列情報の類似性判別を試みることを目的とし、さらに明確なクラスタリングが可能となる辞書の自動生成の可能性も探ったものである。 データ圧縮法としてLZWを用いた。LZWとは、出てきた単語を登録し、以後出てきた同じ単語を登録先ポインタに置き換えて圧縮を行う手法である。n個のテキストデータ列を圧縮すると、n個の辞書が得られる。このn個の辞書を用いて既知データを圧縮すると、このデータはn次元ベクトルとして表現される。構造が似ているデータ列は原理的にn次元空間内で近いところに位置するため、クラスタ解析により既知データの分類・未知データの機能推測が可能となる。 本研究では、インターロイキン、7回膜貫通型膜タンパク、カドヘリンの3つのグループのデータを用いて各種検討を行った。結果は次の2点にまとめられる。 (1)各タンパクのアミノ酸配列を、6つの基底辞書を用いて6次元ベクトル化し、グループごとにクラスタリングできることを示した。 (2)遺伝的アルゴリズムの導入により、グループが明確にクラスタ化できるような仮想辞書を作り出すことができた。 本研究ではデータとしてアミノ酸配列を用いたが、単なるテキスト列と見なして処理しているため、塩基配列に対しても同様の分類は可能であると考えられる。また生成された辞書を解析することでモチーフが得られる可能性がある。これらが本研究を通じて得られた今後の重要課題である。
|
Report
(1 results)
Research Products
(6 results)