連続的入力データからの規則発見に際し、自乗出力誤差と得られる規則の複雑さのバランスが重要である。このトレードオフを表現するのがAICなどの情報量基準である。忘却付き構造学習においてAICが最小となる忘却量を選定する。ただこれだけでは適切な複雑さの規則が求まらないので、各隠れユニットの入力結合数を制限したいくつかのネットワークを学習し、この中から最も適合度の高いものを選び、規則を求めた。さらに、機械学習の分野で良く用いられているC4.5との比較を行った。またアヤメに関してはFuが提案したKT法との比較も行った。C4.5とKT法は、各項が一属性からなる単純な規則しか生成できないのに対し、本方法では適切な複雑さの規則を生成することが可能である。第一は2個の入力属性を持つ二次元平面上の各点を2クラスに分類する課題であり、各項が一属性からなる規則では説明が困難である。C4.5では規則は多数の単純な規則が求まるのに対し、本手法では2属性からなる6個の規則でほぼ説明が可能である。第二は4個の入力属性を持つアヤメのデータを3クラスに分類する課題である。高々3属性からなる3個の規則が、150データ中148個を説明する。第三は5個の入力属性を持つ甲状腺機能のデータを3クラスに分類する課題である。2入力からなる4個の規則が、215個のデータすべてを説明する。いずれもC4.5やKT法よりも分類誤りが少ない。連続値入力と離散値入力が混在したデータからの規則の発見、および連続値入出力データからの規則の発見に関しては、課題の困難性のため依然として満足のゆく結果が得られたとは言い難い。これらは今後に残された研究課題としたい。
|