研究概要 |
本年度は,文字列データからの知識獲得問題において,そこで用いられる符号化の手法に対して潜在構造モデルを導入したアルゴリズムについて研究を行なった.実証研究としてこのアルゴリズムをBONSAIシステムに実装し、さらにシステムの並列化を実現した. ・アミノ酸塩基配列等の文字列データから知識を抽出するために,特定の機能を有する部位かそうでないかによる正の例・負の例からなるサンプルデータを対象に出現する文字パターンに着目して,新たに入力された文字例がPositiveかNegativeかを判定する決定木を構成した.この時,入力される文字そのものを扱わず,より少数のグループに符号化する手法がAlphabet Indexingである.このindexingを求めるための計算量はNP-completeなので,文字の出現頻度に着目したクラスター分析を適用し,疑似的なAlphabet Indexingを実現する手法を構築した. この手法を知識獲得のための機械発見システムBONSAIにおいて実現した.BONSAIシステムは,正の例・負の例のサンプルデータを入力として,文字パターンの正規表現上の決定木とAlphabet Indexingを出力する.しかし潜在したデータを入力したときに,single BONSAIでは適当な仮説を高精度で発見することが難しい.このBONSAIを並列化し,入力データを分割してそれぞれのBONSAIで仮説を発見させ,生成された決定木で説明できなかったデータを別のBONSAIと交換することで,複数の異なる仮説を発見することを可能とした.
|