研究概要 |
パターン認識の前処理としての次元圧縮を想定した場合,汎用の次元圧縮法として従来から広く使われている主成分分析では、訓練データに付与されているクラス情報を活用できないという欠点がある。一方,クラス情報を利用する手法として線形判別分析も広く使われているが,圧縮後の特徴量の次元数がクラス数未満に制限されるため,過度の圧縮となってしまい,適当な圧縮結果を得にくいという欠点がある.本研究では,これらの問題の克服を目指して,圧縮後のクラス分布の相違を指針とする圧縮法を考察している. 本年度は,昨年度のポテンシャルを用いる手法について実証実験を行い,(1)特に低次元への圧縮において,それを用いた判別の正答率は,従来法に勝る,(2)しかし,訓練データの次元数や個数が増えると,計算量が過大となる,という結果を得た.そこで,利点である(1)を保ちつつ,欠点である(2)を緩和するために,ガウス混合分布の利用を試みた.具体的には,各クラスの訓練データに対してガウス混合分布をあてはめることで,データをこれらの分布として表現する.そして,ガウス分布間に距離に相当する尺度を定義し,これを前手法におけるデータ間の距離とおきかえて使用する.あてはめられるガウス分布の個数は訓練データ数より小さくなるため,あてはめの計算時間まで含めても,前手法より高速に圧縮結果が得られる.しかも,圧縮データを用いての判別実験でも,前手法と同程度の正答率を保つことができた.
|