研究課題/領域番号 |
24500338
|
研究種目 |
基盤研究(C)
|
研究機関 | 東京農工大学 |
研究代表者 |
堀田 政二 東京農工大学, 工学(系)研究科(研究院), 准教授 (90346932)
|
研究期間 (年度) |
2012-04-01 – 2015-03-31
|
キーワード | Pattern Recognition |
研究概要 |
本課題では,あるサンプル集合(陽サンプル)と,その原点対称となる鏡像サンプル(陰サンプル)を一つのガウス分布で表現する陰陽ガウス分布を提案し,これから導かれる統計的パターン認識手法を大規模データ解析に応用することを目的とする.具体的には,陰陽ガウス分布をカルバック・ライブラー情報量や複合決定問題(ベイズの定理の拡張)に適用することにより,これまで発見的に開発されてきた相互部分空間法や複数サンプルの同時クラス分類を効率的に行う手法を統計的に導くことを可能とする.さらに,本研究によって開発した新しいパターン認識手法を数千万,数億オーダー規模のデータに適用することで,大量データ時代のパターン認識問題に対する一つのアプローチを確立する. 平成24年度では,複合決定問題への陰陽ガウス分布の適用を行った.複合決定問題とは,ベイズ決定則を複数のサンプルの同時クラス分類問題に拡張したものであり(Hannan & Robbins, 1955),連続して観測された複数のサンプルに対応する連続したクラスラベルを,統計的独立性を仮定しないで決定する問題である.この問題に陰陽ガウス分布を適用すれば,少ない記憶容量と計算量で複数のサンプルに対し同時にクラスラベルを付与できるアルゴリズムを導くことができると期待できる.本年度では,この考えに基づき,統計的独立性を仮定することで,異なる複数の特徴量に基づいて未知サンプルを分類するための識別器を導いた.
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
平成24年度では,陰陽ガウス分布を複合決定問題へ適用することで,連続して観測された複数のサンプルに対するクラスラベルを,統計的独立性を仮定しないで決定するアルゴリズムの開発に関する研究を行なった.複合決定問題とは,複数のサンプルを観測した後,それぞれのクラスラベルを同時に決定する問題である.このような問題は,ビデオを構成する複数のショットのクラスラベル推定等に応用可能であり,大規模データ解析には必要な要素技術である.本年度では,この問題に対して確率密度関数として陰陽ガウス分布を用いることにより,圧縮を伴った複数サンプルの同時クラス分類を実現するためのアルゴリズムの開発を行った.ただし,複合決定問題では複数のクラスラベルの組み合わせ(context)ごとに事前確率とサンプルに関する確率密度関数が必要であり,その組み合わせの個数は,クラス数をC,観測するサンプル数をnとすると,Cのn乗個も存在してしまう.そこで,統計的独立性を仮定し,さらに確率密度関数として陰陽ガウス分布を用いることで,少ない記憶容量と計算量で同じクラスに由来する複数の未知サンプルを分類したり,異なる複数の特徴量に基づいて未知サンプルを分類したりするための認識アルゴリズムを導いた.
|
今後の研究の推進方策 |
今後の予定としては,同一クラスに由来する複数の未知サンプル集合が得られた場合を想定し,未知サンプル集合も陰陽ガウス分布で表現した場合のカルバック・ライブラー情報量に関する研究を行う.具体的には,未知サンプルの分布を表す陰陽ガウス分布と,クラスごとの訓練サンプルの分布を表す陰陽ガウス分布とのカルバック・ライブラー情報量を求めることにより,相互部分空間法に類似したアルゴリズムを導く.ただし,この方法で求めたアルゴリズムと相互部分空間法のアルゴリズムは完全に一致するわけではないので,その相違点に関して理論的な研究と実験を行い,相互部分空間法を統計的に拡張可能とすることをこの年度の主たる研究目的とする.また,Hadoopを導入し,大量のデータを並列分散的に管理・運用できるようにする.
|
次年度の研究費の使用計画 |
本研究課題では,理論面の研究の大凡の見通しは立っていたので,平成24年度ではその研究に注力した.そのため,大規模データに対する実験を行わなかったため,次年度使用額が生じた.本年度では,Hadoopを導入することと,本研究室の大学院生を雇用してシステム構築と運用チェックのために予算を使用する予定である.
|