本研究の目的は、文法推論のパラダイムにより自動的にゲノム構造を獲得する方式を設計することである。最初の段階では、第一にゲノム向き文法の形式を決定する。これは文法規則の形や制限として表される。同時に、一つの文法が規定する記述対象(配列の集合、すなわちパタ-ン)をどのレベルとするのかを決める。第二にサンプル記述対象に対して、この形式により実際の文法規則を作成する。さらにサンプルデ-タに対してこの文法規則により構文解析し、対象パタ-ンの検出を行う。 今年度は第一にこのゲノムに文法推論を行う枠組みの設計を行った。文法推論方式は、サンプル記号列の部分列を順次非終端記号に置き換えていく方法を取る置き換えるものとしては、(1)統計的に有意に出現する小記号列、(2)複数のサンプルに出現する長い記号列、(3)複数のサンプルにおける相違部分どうし、(4)文脈同値(類似)関係を持つ記号列どうし、(5)同一文脈の内側の記号列、を検討することにした。 アルゴリズムの概略は、まずサンプル記号列の集合を与える。そのなかの記号列注の部分列を、上のどれかにしたがって選び出し、それを同一の非終端記号に置き換える。そうしてできる記号列の集合に同じことを繰り返し、部分列がなくなるまで繰り返す。 第二に、上の(1)の置き換えによる構造抽出(文法推論)のシステムを試作した。これを数種の同一遺伝子に対して適用した。この場合、同一アミノ酸配列をマッチングさせた形と似たものとなる。すなわちアラインメントの基本的部分と一致する。現在はまだ行っていないが、同一パタ-ンがさまざまな所にある場合もすべて同一非終端記号に置き換えられているわけで、それらはすべて認識されている。 さらに、今後(2)から(5)などの異なる方式による非終端記号決定メカニズムを実現し、その機能を評価する方法を検討している。
|