研究概要 |
初年度は,1.属性選択法の開発,2.データ量削減のための規範の検討,3.統合環境の全体構成の立案,の3課題を中心に実地した. 1.属性選択(データクリーニング)手法の検討と実装 属性の集合の良さを表す指標として,距離尺度,不確実性尺度,依存性尺度,整合性尺度,誤差尺度を,探索手法として,最適解を必ずしも保証しないヒューリスティックス手法,最適解を保証する探索法,計算資源が十分あれば最適解を保証するランダム法を検討し,データの特性毎に,どのような尺度・探索法の組合せがよいかを,すでに公表されている手法も含めて総合的に検討し,属性選択手法の選択に関する戦略を策定し,幾つかの代表的な属性選択法を実装した. 2.データ量削減のための規範の検討 適正なサンプリングやクラスタリングもデータに内臓されている構造を捨て去ることなく,一部のデータのみから,全データを用いた場合と同じ知識を発掘できる可能性がある.属性の選択と相補的な関係にある,このような事例の選択に関する研究状況を調査した.その結果を元に,国際的な論文誌にて事例選択の特集号を企画し受理された. 3.総合機械学習環境の基礎検討 上記と並行して統合環境の概念設計を実地した.とくに,大量のデータを扱うための効果的なトライ構造を用いたインデッキシングやデータ管理法を検討し,一部を実装した.
|