配分額 *注記 |
8,700千円 (直接経費: 8,700千円)
2001年度: 3,000千円 (直接経費: 3,000千円)
2000年度: 2,700千円 (直接経費: 2,700千円)
1999年度: 3,000千円 (直接経費: 3,000千円)
|
研究概要 |
急速に蓄積されつつある大量情報の中から真に有用な情報を知識として迅速に抽出するための新しい技術,解析手法の開発が急務となっている.本研究ではこのような目的を達成する上で不可欠な要素技術である,元データから不要な属性を削除する属性選択,知識発見の質を落とさずデータ量を削減する事例選択,より効果的な属性を既存の属性を基に新たに生成する属性構築に関し,新しい手法を提案・実装し,それらを統合した機械学習・データ発掘のためのワークベンチを構築し多様なデータを迅速に評価し得る環境を整備した.属性選択に関しては,指標として,距離尺度,不確実性尺度,依存性尺度,整合性尺度,誤差尺度を,探索手法として,ヒューリスティックス手法,完全探索法,ランダム法を検討し,属性選択手法の選択に関する戦略を策定した.この過程で,不整合性を指標とする分岐限定法を用いた効率的な完全探索法ABBを提案した.事例選択に関してはランダムサンプリングとコミッティー学習を組み合わせた新しいデータ削減手法S$^3$ Baggingを提案し,データ量を1/10に削減可能との見通しを得た.属性構築に関してはグラフ構造データからペアの逐次拡張により特徴的なパターンを発見するGBI法を属性構築に用い分類器の入力とする多戦略学習法と相関規則の結果から新しい属性を構築する方法を提案し,その有効性を検証した.本研究の成果として得られた機械学習のワークベンチにより,データの性質に応じて最も効果的な属性を選択し,不要な属性を排除するなどの前処理を行なうことが可能になり,質の高い知識を発掘できるようになったものと考える.
|