研究概要 |
前年度までに,代表的なデータマイニングアルゴリズムを分析し,メソッドリポジトリを構築して,メソッドからアルゴリズムを自動合成するツールCAMLETを開発してきたが,仕様探索・実行時間に課題があった.そこで,効率的な仕様探索を実現するために,相関ルールに基づいて,仕様書き換えルール(メタルール)の学習を試みた.その結果,ランダム探索よりは安定した仕様書き換えが実現できることを確認した.また,仕様合成プロセスを並列処理することを考察し,16CPUから構成される並列マシンを実装し,70〜80%程度の台数効果が得られることを確認した. 次に,属性選択法について検討した.属性選択には,フィルター法とラッパー法があるが,前者はコストが小さいが精度が低く,後者は精度が高いがコストが大きいという間題があった.そこで,フィルター法によりシーズとなる属性群を選択し,それを逐次的に拡張するシーズ法という新しい属性選択法を提案し,ベンチマークによるこれら3つの方法を比較したところ,シーズ法が最良の精度を示し,コストもラッパー法のように大きくかからないことが実証された. 最後に,前年度までに,本研究領域の共通データである慢性肝炎データセットに種々の前処理を施し,短期(1年)のGPTの変化を特徴付けるルールを獲得していた.本年度は,種々のデータ前処理を体系づけるとともに,専門家(医師)との連携を強化しながら,中期(5年)におけるGPTの変化の特徴付けとALBの変化の特徴付けに関するルール発見を試みた.その結果,前者では,GPTが3年程度で周期的に変化している可能性を示唆するルールが学習され,医師から興味深いと評価され,生データに立ち戻ってさらに分析を進めることになった.後者では,ALBとLAP等との関連性を示唆するルールが学習され,医師からは,通常独立とされている検査項目間の関連性を示唆する内容であり,新しい仮説を見出す可能性が出てきたと評価できる.
|