Research Abstract |
本研究はいわゆるPAC学習モデルに基づき,学習による概念形成過程を,情報圧縮の立場から見直し,概念形成の仕組みを,学習アルゴリズムの振舞いそのものに立ち入って解明しようとするものである.学習による概念形成は,大量のデータから(例題)からそれと矛盾しない仮説を形成する過程とみることができる.この仮説は通常,対応するデータを簡潔に表現するので,学習による概念形成は情報圧縮過程とみることができる.我々はこれまで,例題の中に反例が生じない間はそれまでの仮説を保存するという保存性の概念や,例題の数が増すに従って仮説の精度は増大するという単調性の概念に注目し,概念形成過程を解明してきた.得られた研究成果は以下の通りである. (1)単調性,保存性を有する学習アルゴリズムの情報圧縮 例題の系列,サンプルを入力して,仮説を出力するアルゴリズムが,無矛盾,すなわちサンプルに矛盾せず,かつ記述長がo(m)の仮説を出力するとき,そのアルゴリズムをOccamアルゴリズムと定義する.さらに,記述長が短いという条件(すなわち,o(m)の条件)を,VC次元を用いて置き換え,しかも,十分高い確率でVC次元が低いクラスに属する仮説が出力されることを要請することにより,弱Occamアルゴリズムの定義を同様に与えることができる.このとき,情報圧縮と学習過程の間に次の命題が成立する. 定理. 学習アルゴリズムは,多項式p(・,・)が存在して,仮説を更新するときは,直前の仮説の記述長に比べ高々p(n,s)だけ長い仮説に変えるものと仮定する.このとき,ある自然な条件のもとでは,無矛盾なPAC学習アルゴリズムは,弱Occamアルゴリズムとなる. (2)片側学習アルゴリズムにおける必要例題数の評価 学習アルゴリズムが目標関数fに対して,常にh〓fとなるような仮説hを出力するとき,片側学習アルゴリズムという.片側誤りPAC学習に必要な例題の個数の上界を,新しく切片集合(particle set)の概念を導入して,サンプルの中にXの同一の点も現れ得ることを考慮に入れて評価した.この一般的な必要例題の上界を,目標関数のクラスが,n次元ユークリッド空間のn次元直方体からなるクラスの場合に適用して,これまで知られている上界を改良する上界max{4/εlog2/δ,(39n)/ε}を導くとともに,この上界が,定数の違いを無視すると下界に一致することを示した.ここで,ε,δは,通常のPAC学習の定義における,誤りパラメータと信頼度パラメータである. (3)積和論理式の一様確率分布のもとでのPAC学習 積和論理式のクラスDNFが例題からPAC学習可能かという問題は,PAC学習の分野の主要な未解決問題である.DNFのクラスに制限を加え,積項の個数が高々O(log n)である単調DNFのクラスlog(n)-term MDNFを対象とし,このクラスをPAC学習するアルゴリズムを制限(restriction)の概念を用いて導いた.
|