研究概要 |
巨大データから有用な情報を取り出すアルゴリズムを設計することは,データマイニングや知識発見の分野の主要な研究目標である.しかし,データベースのサイズが数百ギガバイトにも及ぶと,従来の手法は適用することができず有用情報を仮説として抽出のための新しい計算メカニズムが必要となる.本研究では,仮説の評価として従来用いられていた誤り率やMDL原理としても知られる記述長に代わり,汎化エントロピーを採用するなどして,これまでの主要な学習アルゴリズムを再構築し,目通しの良い新しいアルゴリズム設計手法を確立することを目指す. 本年度の実績の概要は次のとおりである. (1)弱仮説として重み平均アルゴリズムWAからの出力が供給されるとし,各ラウンドに得られる弱仮説を統合して強仮説を得るというブースティングアルゴリズムBoostedWAを取りあげ,このアルゴリズムがマージン最大化を図るアルゴリズムとなっていることやBoostedWAの重み更新式が勾配傾斜法の更新式と一致している等を導き,これまで個別に研究されてきたアルゴリズムを見通し良く説明することができた. (2)ランダムプロジェクションは,次元数の大きいベクトルから次元数の小さいベクトルへの変換であり,この変換を施した後に,最近隣探索,学習,データ組織化を実行し,膨大なデータを処理することができる.そのためにランダムプロジェクションで元のベクトルのある種の性質が保存されることが必要となるが,ランダムプロジェクションにより距離が保存される条件を行列のランダム性に種々の制約を加え導いた. (3)決定ダイアグラムに基づいたブースティングアルゴリズムについて,エントロピーを仮説の評価尺度として採用し,得られる決定ダイアグラムの過学習を抑制するアルゴリズムを導いた.このアルゴリズムでは,決定木の葉の分岐の際にエントロピーが減少する場合に限り葉をマージし,決定ダイアグラムを成長させるという操作を繰り返すもので,このアルゴリズムが有効に働くことをシミュレーションにより示した.
|