研究概要 |
まず,今まで,所与のデータセットに対して適切なデータマイニングアルゴリズムを自動合成するメタ学習機構を開発してきたが,これを構成的メタ学習と呼ぶこととし,複数のデータマイニングを適切に選択する選択的メタ学習の代表的なアルゴリズムであるスタッキングと精度を比較評価した.その結果,構成的メタ学習の精度の方が高いことが判り,その有意性を示すことができた. 次に,属性選択については,フィルター法によりシーズとなる属性群を選択し,それを逐次的に拡張するシーズ法という新しい属性選択法を提案し評価した.シーズ法の精度は概ねよかったが,データセットによっては,シーズ属性群に精度を劣化させる属性が含まれるケースがあった.そこで,因子分析により,因子負荷量最小値となる属性は固有性が高いことから精度劣化要因になると仮定して削除するという前処理を追加した.その結果,改良シーズ法が最良の精度を示すことが確認された. 最後に,慢性肝炎データセットを分析し,離散値に基づくルール発見を試みて,専門家である医師の評価を受けてきたが,今年度は,興味深いとされたルールをどの程度自動的に選択できるかという課題に取り組んだ.まず,調査した従来の興味深さ指標を,一般的指標,確率に基づく指標,統計に基づく指標,情報量に基づく指標に分類した後,代表的と思われる15個の指標を選択し,今までに発見されたルール群にそれら15個の指標値を求め,同じルール群に対する医師の評価と比較した.その結果,x2指標値が十分機能すること,Specificity, Recall, J-Measure, K-Measure, Credibility, Liftなどの指標値は限定された状況下では機能すること,Prevalenceはほとんど機能しないことが判明した.
|