2001 年度実績報告書

汎化エントロピー評価基準に基づくデータ組織化のためのオンラインアルゴリズム

研究課題

研究課題/領域番号	13480074
研究機関	東北大学
研究代表者	丸岡章東北大学, 大学院・情報科学研究科, 教授 (50005427)
研究分担者	天野一幸東北大学, 大学院・情報科学研究科, 助手 (30282031) 瀧本英二東北大学, 大学院・情報科学研究科, 助教授 (50236395)
キーワード	ブースティング / マージン / サポートベクトルマシーン / 勾配傾斜法 / ランダムプロジェクション / 次元圧縮 / m-限定独立 / 過学習
研究概要	巨大データから有用な情報を取り出すアルゴリズムを設計することは,データマイニングや知識発見の分野の主要な研究目標である.しかし,データベースのサイズが数百ギガバイトにも及ぶと,従来の手法は適用することができず有用情報を仮説として抽出のための新しい計算メカニズムが必要となる.本研究では,仮説の評価として従来用いられていた誤り率やMDL原理としても知られる記述長に代わり,汎化エントロピーを採用するなどして,これまでの主要な学習アルゴリズムを再構築し,目通しの良い新しいアルゴリズム設計手法を確立することを目指す. 本年度の実績の概要は次のとおりである. (1)弱仮説として重み平均アルゴリズムWAからの出力が供給されるとし,各ラウンドに得られる弱仮説を統合して強仮説を得るというブースティングアルゴリズムBoostedWAを取りあげ,このアルゴリズムがマージン最大化を図るアルゴリズムとなっていることやBoostedWAの重み更新式が勾配傾斜法の更新式と一致している等を導き,これまで個別に研究されてきたアルゴリズムを見通し良く説明することができた. (2)ランダムプロジェクションは,次元数の大きいベクトルから次元数の小さいベクトルへの変換であり,この変換を施した後に,最近隣探索,学習,データ組織化を実行し,膨大なデータを処理することができる.そのためにランダムプロジェクションで元のベクトルのある種の性質が保存されることが必要となるが,ランダムプロジェクションにより距離が保存される条件を行列のランダム性に種々の制約を加え導いた. (3)決定ダイアグラムに基づいたブースティングアルゴリズムについて,エントロピーを仮説の評価尺度として採用し,得られる決定ダイアグラムの過学習を抑制するアルゴリズムを導いた.このアルゴリズムでは,決定木の葉の分岐の際にエントロピーが減少する場合に限り葉をマージし,決定ダイアグラムを成長させるという操作を繰り返すもので,このアルゴリズムが有効に働くことをシミュレーションにより示した.

研究成果
(4件)

すべてその他

すべて文献書誌 (4件)

[文献書誌] Eijj Takimoto, Akira Maruoka, Voldya Vovk: "Predicting nearly as well as the best pruning of a decision tree through dynamic programming scheme"Theoretical Computer Science. Vol.261, No.1. 179-209 (2001)
[文献書誌] K.Amano, T.Hirosawa, Y.Watanabe, A Maruoka: "The Computational Power of a Family of Decision Forests"Lecture Notes in Computer Science. Vol.2136. 123-134 (2001)
[文献書誌] K.Amano, J.Tromp, P.M.B.Vitanyi, O.Watanabe: "On a Generalized Ruin Problem"Lecture Notes in Computer Science. Vol.2129. 181-191 (2001)
[文献書誌] Akira Maruoka, Eiji Takimoto: "Encyclopedia of Computer Science and Technology Vol.45"Marcel Dekker, Inc.. 448 (2002)

2001 年度 実績報告書

汎化エントロピー評価基準に基づくデータ組織化のためのオンラインアルゴリズム

研究代表者

丸岡 章 東北大学, 大学院・情報科学研究科, 教授 (50005427)

研究成果

[文献書誌] Eijj Takimoto, Akira Maruoka, Voldya Vovk: "Predicting nearly as well as the best pruning of a decision tree through dynamic programming scheme"Theoretical Computer Science. Vol.261, No.1. 179-209 (2001)

[文献書誌] K.Amano, T.Hirosawa, Y.Watanabe, A Maruoka: "The Computational Power of a Family of Decision Forests"Lecture Notes in Computer Science. Vol.2136. 123-134 (2001)

[文献書誌] K.Amano, J.Tromp, P.M.B.Vitanyi, O.Watanabe: "On a Generalized Ruin Problem"Lecture Notes in Computer Science. Vol.2129. 181-191 (2001)

[文献書誌] Akira Maruoka, Eiji Takimoto: "Encyclopedia of Computer Science and Technology Vol.45"Marcel Dekker, Inc.. 448 (2002)

2001 年度実績報告書

丸岡章東北大学, 大学院・情報科学研究科, 教授 (50005427)