研究概要 |
1.決定木とインデックス化の機械学習による知識獲得機械学習によって,構造のわからない1次元の文次列データから知識を獲得する手法として,本年度は,初年度に着手した正規パターン上の決定木の学習についての理論的結果に基づき,機械学習システムの基本設計とその中核部分の実働化を行った。そして高度の学習を狙い,その学習可能性,探索に要する計算量などを解析した。そして,これらの理論的研究に基づき,その学習可能性,探索に要する計算量などを解析した。そして,これらの理論的研究に基づき,文字列データからの知識獲得システムBONSAIの開発を行い,ワークステーション上に実働化することに成功した。BONSA夫は,文字列データからの知識獲得システムである。このシステムは正の例と負の例の集合が与えられると,それらを分類する仮説として,アルファベットのインデックス化と正規パターン上の決定木を発見する。アルファベットのインデックス化とは,入力データに使われている文字を,あらかじめ設定された,より少ない個数の文字へ変換する対応づけである。例えば,アミノ酸配列のデータを入力とした場合,20種類のアミノ酸の記号を数種類に分類することに相当し,このようなアミノ酸の分類は分子生物学の世界で普通に行われていることである。正当パターン上の決定木とは,各ノードに正規パターンと呼ばれる判定規則を用いた決定木である。正規パターンとは,「モチーフ」を一般化した概念である。BONSAIから出力された決定木のノードに現れる正規パターンから,重要なモチーフが抽出されることになる。また同時に,タンパク質の分類にBONSAIを利用した場合,BONSAIが発見してくるインデックス化から,アミノ酸のどのような分類が有効であるのかを知ることができる。 2.実験結果BONSAIは膜貫通領域予測問題に対して極めて精度の良い仮説を発見した。それとともに,インデックス化の探索の方法として用いた局所探索法によって,親水度にほとんど対応したインデックス化をBONSAIが発見したことは,この方式の有効性を十分に証明している。またシグナル配列の問題に対しても極めて良いインデックス化と決定木を発見している。
|