研究課題/領域番号 |
13680394
|
研究機関 | 京都大学 |
研究代表者 |
阿久津 達也 京都大学, 化学研究所, 教授 (90261859)
|
研究分担者 |
宮野 悟 京都大学, 医科学研究所, 教授 (50128104)
|
キーワード | モチーフ抽出 / GIBBSサンプリング / 相対エントロピー / ローカルサーチ / 位置依存スコア行列 / バイオインフォマティクス / アルゴリズム |
研究概要 |
本年度は以下の3種類の成果をあげることができた。 (i)相対エントロピーに基づく局所多重アラインメントアルゴリズムの特殊ケースの評価 局所多重アラインメントは複数の配列とモチフ領域の長さ(パターンの長さ)Lが与えられた時に、各配列から長さLの連続部分列を選びだす問題である。いくつかの評価基準が提案されているが、これまで相対エントロピー最大という評価基準が幅広く利用されている。この問題は以前に筆者らが示したようにNP困難であるが、その局所探索アルゴリズムとして相対エントロピーに基づく方法が知られている。本研究ではその収束性について研究を行い、L=1の場合には、任意のアルファベットに対し多項式回数で局所最大値になることを証明した。かなり特殊な場合の解析ではあるが、明白なことではない。L>1の時の解析は今後の課題である。 (ii)GIBBSサンプリングアルゴリズムの実数値配列への拡張 上で示した問題に対する有力なアルゴリズムとしてGIBBSサンプリングに基づくアルゴリズムが幅広く利用されている。しかしながら、そのままでは、文字列データにしか適用することができない。そこで、実数値列さらには実数ベクトル例に適用できるようにアルゴリズムを拡張した。その結果、アミノ酸の物理化学的性質を考慮したモチーフ抽出や立体構造を考慮したモチフ抽出が可能となった。 (iii)位置依存スコア行列の正負例からの推定の計算量の解析 上にあげた二つの問題においては正例(モチーフを含む配列群)のみからモチーフ領域を抽出していた。しかしながら、負例を与えた方がより精度の高い推定ができる可能性がある。そこで、正負の例(モチーフを含む配列群とモチーフを含まない配列群)を与えて、そこから正負の例を完全に分離するモチーフを位置依存スコア行列の形式で抽出する問題を考え、その時間計算量について考察した。その結果、モチーフ領域の長さが定数で抑えられる場合には多項式時間で推定可能であるが、そうで無い場合にはNP困難となることが判明した。
|