2001 Fiscal Year Annual Research Report
バイオインフォマティクのための共通パターン抽出アルゴリズムの研究
Project/Area Number |
13680394
|
Research Institution | Kyoto University |
Principal Investigator |
阿久津 達也 京都大学, 化学研究所, 教授 (90261859)
|
Co-Investigator(Kenkyū-buntansha) |
宮野 悟 京都大学, 医科学研究所, 教授 (50128104)
|
Keywords | モチーフ抽出 / GIBBSサンプリング / 相対エントロピー / ローカルサーチ / 位置依存スコア行列 / バイオインフォマティクス / アルゴリズム |
Research Abstract |
本年度は以下の3種類の成果をあげることができた。 (i)相対エントロピーに基づく局所多重アラインメントアルゴリズムの特殊ケースの評価 局所多重アラインメントは複数の配列とモチフ領域の長さ(パターンの長さ)Lが与えられた時に、各配列から長さLの連続部分列を選びだす問題である。いくつかの評価基準が提案されているが、これまで相対エントロピー最大という評価基準が幅広く利用されている。この問題は以前に筆者らが示したようにNP困難であるが、その局所探索アルゴリズムとして相対エントロピーに基づく方法が知られている。本研究ではその収束性について研究を行い、L=1の場合には、任意のアルファベットに対し多項式回数で局所最大値になることを証明した。かなり特殊な場合の解析ではあるが、明白なことではない。L>1の時の解析は今後の課題である。 (ii)GIBBSサンプリングアルゴリズムの実数値配列への拡張 上で示した問題に対する有力なアルゴリズムとしてGIBBSサンプリングに基づくアルゴリズムが幅広く利用されている。しかしながら、そのままでは、文字列データにしか適用することができない。そこで、実数値列さらには実数ベクトル例に適用できるようにアルゴリズムを拡張した。その結果、アミノ酸の物理化学的性質を考慮したモチーフ抽出や立体構造を考慮したモチフ抽出が可能となった。 (iii)位置依存スコア行列の正負例からの推定の計算量の解析 上にあげた二つの問題においては正例(モチーフを含む配列群)のみからモチーフ領域を抽出していた。しかしながら、負例を与えた方がより精度の高い推定ができる可能性がある。そこで、正負の例(モチーフを含む配列群とモチーフを含まない配列群)を与えて、そこから正負の例を完全に分離するモチーフを位置依存スコア行列の形式で抽出する問題を考え、その時間計算量について考察した。その結果、モチーフ領域の長さが定数で抑えられる場合には多項式時間で推定可能であるが、そうで無い場合にはNP困難となることが判明した。
|
Research Products
(3 results)
-
[Publications] T.Akutsu: "A local search algorithm for local multiple alignment : special case analysis and application to cancer classification"Proceedings of International Conference on Parallel and Distributed Processing Techniques and Applications. 1284-1290 (2001)
-
[Publications] T.Akutsu, K.Horimoto: "Local multiple alignment of numerical sequences : detection of subtle motifs from protein sequences and structures"Genome Informatics. 12. 83-92 (2001)
-
[Publications] T.Akutsu, H.Bannai, S.Ott, S.Miyano: "On the complexity of deriving position specific score matrices from examples"Proc. 13^<th> Annual Symposium on Combinatorial Pattern Matvjing(CPM 2002). (採録決定ずみ).