研究課題/領域番号 |
18H03266
|
研究機関 | 同志社大学 |
研究代表者 |
片桐 滋 同志社大学, 理工学部, 教授 (40396114)
|
研究分担者 |
中村 篤 名古屋市立大学, 大学院システム自然科学研究科, 教授 (50396206)
渡辺 秀行 株式会社国際電気通信基礎技術研究所, 脳情報通信総合研究所, 連携研究員 (40395091)
|
研究期間 (年度) |
2018-04-01 – 2023-03-31
|
キーワード | パターン認識 / ベイズ境界 / 最小分類誤り確率状態 / 汎化問題 / 未知標本耐性 |
研究実績の概要 |
パターン認識(分類)器の学習の目的は,登場し得る無限個のパターン標本を分類する際の誤り確率が最小(ベイズ誤り状態)になるように,分類器のパラメータを最適化することにある.しかし,学習に用いることができるパターン標本は有限個しかなく,学習はその過程においてこの無限個と有限個との間の溝を埋めなければならない. 「無限」に関わる溝を埋めることは容易ではない.その解決を目指して,交差検証法や正則化などの様々な手法が試みられてきた.しかし,有限個の学習標本の分割・再利用に基づくそれらの多くは,分割法によって結果が影響されるなど,その性能は不十分であり,一層有効な手法の構築が望まれてきた. 本研究は,これまでほとんど直接的には利用されてこなかった,分類器が作るクラス境界が持つ性質,即ち「分類判断における曖昧性」を測定することによって,上記の要請に応えようとするものである.研究プロジェクトの1年目の今期は特に,(1)この曖昧性を測る具体的な手段として境界近傍標本から求める事後確率に基づくエントロピーによって曖昧性尺度を定義し,(2)その値を算出する方法を考案し,(3)多数のパターン認識実験を通してその基本的な有効性を実証した.曖昧性尺度値を計算する方法は,基本的に以下の2つのステップから成る.即ち,【ステップ1】学習標本から無作為に多数のアンカー(擬似的な境界上標本)を求め,それを基準として境界近傍標本を求め,【ステップ2】得られた境界近傍標本集合に階層的クラスタリングとk最近傍則を適用してエントロピーを算出する.この曖昧性尺度は,その最小値が理想的なベイズ誤り状態を指す.評価実験では,10種を超える多クラス・多次元パターン標本セットに対して,サポートベクターマシン(SVM)等の3種のパターン分類器を適用し,曖昧性尺度の最小値がほぼ正確にベイズ誤り状態を指示し得ることを明らかにした.
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
本研究における中心的課題は,「クラス境界の曖昧性」を表現する曖昧性尺度を有限個数の学習標本のみから正確に測定する手段の実現にある.研究計画当時,分類器の分類結果であるクラスラベル(属性)情報を用いてこの尺度を定義することを想定していたが,今期の研究を通して,境界近傍標本に基づく事後確率およびエントロピーを求めることによってより有効な曖昧性尺度を定義できることを明らかにした.原理的に,この新しい曖昧性尺度の性能は,境界近傍標本が境界に近いほど,かつ密度が高いほど,向上する.パターン標本数が限られ,かつその次元が高いことが多い現実の課題において,境界により近い標本をできるだけ多数抽出する最良の方法を理論的に導出することは容易ではなく,試行錯誤的に見出さざるを得ない. 今期は,(1)分類結果である2クラスから無作為に選定した学習標本対からアンカーを多数生成し,そのアンカーを起点として境界近傍標本を抽出し,(2)得られた境界近傍標本集合に階層的クラスタリングとk最近傍則を適用して曖昧性尺度値を求める手法を考案し,その有用性を多数のパターン認識用標本セットと複数の型の分類器を用いた評価実験を通して明らかにすることができた.これは,本研究の原点である「ベイズ誤りを推定せずに,与えられた学習標本全体を一度のみ用いてクラス境界の曖昧性を測定することでベイズ誤りに対応する理想的なベイズ境界を発見し得る」という着想の基本的な有効性を強く示唆するものである. また,上段落の実験による成果に加え,考案した曖昧性尺度値を求める方法の数理的性質を解析し,その基盤となる,境界近傍標本にk最近傍則を適用して求める事後確率が,ベイズ境界においては不偏推定量かつ最小分散推定量であることを明らかにすることができた.この結果は,上述の実験による評価結果をさらに理論的に強化するものである.
|
今後の研究の推進方策 |
今期考案した境界近傍標本の抽出法は,十分な数のアンカーを求める手続きの計算量が大きく,曖昧性尺度を用いる手法の実用性を高めるためにはその高速化が求められる.また,境界近傍標本から求める曖昧性尺度が持つ多少の不安定さを改善する必要もある.こうした観点から,まず,アンカーの生成を回避して,境界付近における誤分類尺度の(標本位置に関する)勾配を用いて境界近傍標本を探索する方法や,全学習標本に階層的クラスタリングを適用して境界近傍の標本クラスタを求める方法などを軸として,高速化を試みる.また,曖昧性尺度の定義に用いてきたシャノンのエントロピーが最良である保証はない.k最近傍則の利用についても同様である.ジニの不純度の有効性や推定量の平均化による効果も調査する. これまで実験に用いてきたパターン標本は固定次元のものであった.今後は,可変長パターンに本手法を適用することを目指し,可変長パターンに関する境界近傍標本の抽出法の構築も試みる.そのため,可変長パターンに対する動的時間軸伸縮法の意味における幾何マージン(距離)を増大できる最小分類誤り(MCE)学習法と曖昧性尺度に基づく本手法との統合を試みる. SVM分類器の普及に裏付けられるように,幾何マージン最大化は,ベイズ誤り状態推定の切札の一つとして広く受け入れられてきた.しかし,今期のSVMを用いた実験からは,幾何マージン最大化は必ずしもベイズ誤り状態あるいはベイズ境界の推定には直結しないことが示唆されている.次期は,MCE学習法を用いた曖昧性尺度の推定を行い,この点の一層の分析を進める. 考案した手法は基本的に,多数の異なる分類器学習結果が得られていることを前提としている.今後は,そうした長時間を要する学習結果の準備の必要性を回避するため,分類器パラメータ学習手続きの中で直接的にベイズ境界を求める新しい分類器学習法の実現も模索する.
|