研究概要 |
あるDNAの母集合S、及び、その部分集合Tに対して、あるDNAがTに属するかどうかを識別するために用いられるDNAプローブの概念を識別文字列という形で数学的に定式化し、任意のS、Tが与えられた時、識別文字列を求めるアルゴリズムを開発してきた。 本研究では、そのアルゴリズムをDNAプローブの設計支援に用いるために、(1)分子生物学の専門家にとって使い易いインターフェースを開発すること、(2)DNA集合として、蓄積されている実験データだけでなく、既存のDNAデータベースからのデータも柔軟に利用できること、(3)得られたDNAプローブの候補が望ましくない時、あるいは、集合S,Tを微修正したい時、プログラムを一々再実行せずに済むように効率化すること、等の問題点の解決を図ることを目標とした。 (1)についてオブジェクト指向データベースを用いた蛋白質3次構造のデータベースを設計・実装した経験から、テンプレート方式による入力とし、計算機に不慣れな人でも容易に使えることを考慮した。(2)について、入力S,Tを指定する方法は主にキーワードによるが、最近、注目されてきた系列データベースに関する質問言語の導入が可能かどうかを現在考察している。(3)については、プログラムでは一般化接尾語木を基本データ構造として用いており、その構成に時間が掛かるため、入力の更新に対応して、一般化接尾語木の更新(挿入・削除・変更)が行なえるようにするためのアルゴリズムの開発を行なってきた。 更に、これまで、識別文字列に関して、Tに属するすべての文字列の部分文字列でなければならないという条件を課してきたが、本研究では、Tに属する各文字列に対して、ある指定された定数ε以下の距離の離れた部分文字列が存在すれば良いという条件への拡張を行なった。その拡張により、従来のアルゴリズムでは見つからない場合でも、識別文字列が見つけられる可能性が出てきた。その拡張のもとでのアルゴリズムの開発・実現を行なっている。
|