研究概要 |
本課題では,探索アルゴリズムの効率化について研究を行ない,平成7年度は次の成果を得た. タンパク質を表現するアミノ酸が20種類のアルファベットで識別されることは,よく知られている.単なる文字列として記録されているタンパク質から,その3次元構造を予測することは非常に難しい.ある文字列から,それを表現する最も小さいグラフを求める問題は,Walk情報からのグラフ再構成問題として知られている.本研究では,この問題が,次数3の木を求めようとしたときでさえ,多項式時間アルゴリズムを持ちそうにないことを示した.また,キャタピラと呼ばれるグラフのクラスでは,多項式時間近似アルゴリズムさえ持ちそうにないことを示すのに成功した.このことから,タンパク質のような有限長の文字列から,効率のよいグラフ表現を導き出すためには,新しい視点からの近似アルゴリズムの研究が不可欠であることがわかり,現在その研究に着手している. タンパク質の探索の中で最も重要なものはモチーフの探索である.このモチーフを表現するために,従来,知識獲得システムBONSAIで用いていた正規パターンを元にして,正規パターンの曖昧さを表すモチーフ表現を構築した.この表現を用いて,正の例と負の例からの知識獲得実験を行ない,成果を得ている. こうした研究は,計算量理論の立場から探索アルゴリズムを捉えるもので,理論面からはC. H. PapadimitriouやM. Yannakakisらによってその端緒はつけられている.しかし,タンパク質や核酸のデータといったゲノムデータに取り組みながら探索の計算理論を構築しようとしたものでは本課題が始めてである.また,本研究の成果は,並列知識獲得システムBONSAI Gardenとしてまとめられ,主にゲノムデータからの知識獲得システムとして多くの研究者に利用されている.
|