1.正規パターン上の決定木の帰納学習問題.正規パターン上の決定木で定義される言語は、決定木の節点に付値された正規パターンの言語またはco-正規パターン言語の積和形で表される。正規パターン言語の和に関しては、Compactness定理(Sato98)により効率的な学習アルゴリズムが構築されているが、積(共通部分)に関しては、理論的成果は何も得られていない。本年度は、与えられたサンプルを含む極小言語を求めるため、等長の条件の下で2つの正規パターン言語の積の包含問題を扱った。先ず、積が空言語となる必要十分条件を求め、各パターンの分割集合の概念を導入し、2つのパターンに対する分割集合の細分割が、包含関係に重要な役割を果たすことを示した。また、2つのパターンの極大例化の長さは元のパターンの長さの高々2倍であることを示し、元の長さ+1の長さを持つ極大例化のみで積言語の包含問題が解決できる正規パターンの性質を解明した。本研究では、アミノ酸配列等に含まれる誤情報を「近傍学習」の枠組みで扱う予定であったが、編集距離等による正例からの近傍学習では、仮説空間が極めて大きくなる等の問題点が生じた。現在、データマイニング等の方法による知識発見を行っている。上記の内容を含む正規パターンで生成される言語(決定木を含む)の学習及びゲノム情報科学への応用に関する総合報告をイタリアで開催されたBIOCOMP2002の国際会議で行った。 2.正例からのerasing正規形式体系の帰納学習.ドイツで開催されたALT2002の国際会議で、k個のerasing正規パターン集合の族が言語の包含に関するCompactness定理であること、及び言語族が正例から多項式時間学習可能であることを発表した。さらに、erasing正規パターン言語を一般化した、空列代入を許すerasing正規形式体系を導入し、2つの節(公理)からなる正規形式体系の正例からの帰納学習問題を検討した。生成される言語は一般には正規パターン言語の無限和で表され、言語族は無限の弾力性を有することがわかった。しかし、族がM有限の厚さを持つこと更に各言語の有限証拠集合の存在を示し、言語族の学習可能性を示した。
|