研究概要 |
本研究ではゲノムデ-タおよびタンパク質デ-タに潜在する規則や法則を学習アルゴリズムにより知識として獲得する方式を構築することを目的とし,以下の点について研究を行い成果を得た。 1.ゲノムデ-タからの知識獲得をそれを規定する文法を推論する言語学習の枠組みとしてとらえ,論理プログラムの一種であるEFS(Elementary Formal System)の学習方式を構築した。確率的近似学習のもとで多項式時間学習可能なEFSの部分クラスを同定し,その多項式時間学習アルゴリズムを見つけた。これにいくつかの理論的にも合理的な制約を付け,近似アルゴリズム等を導入して,現実的に使用可能なシステムを試作し,PIRデ-タベ-スを用い膜貫通領域を同定する実験を行い,満足のいく結果を得た。またこの学習アルゴリズムは原理的には並列化可能であることも示した。これらの理論的・実験的考察からこの知識獲得方式の有用性が確かめられたが,多くの解決すべき問題を内在しており今後の研究に期待される。 2.類推機構の計算量と並列化に関する研究を行った。その結果,有川・原口の類推機構の中にNP困難な状況が現れることを明らかにした。 3.記号列として与えられたゲノムおよびタンパク質デ-タからの知識獲得を考察し正則パタ-ン上の決定木という概念を創った。そしてこの正則パタ-ン上の決定木による分類とその学習方式を構築した。この学習方式に基づいた実験用のシステムを試作し,1と同じ材料を用いて実験を行った。その結果,この機械学習システムは膜貫通領域の同定問題において膜貫通領域以外の部分からモチ-フを取り出し,それにより膜貫通領域とそれ以外の部分を精度90%以上で説明するという仮説を発見したりした。こうした観察からこの方式はこの研究を進める上で極めて有効な方式になるものと強く確信する。ただ理論的な研究はまだ不十分であり,並列化等についての考察は今後の課題として残されている。
|