画像に代表される高次元データが対象である場合、低次元データの場合は有効であるkd木などの方式は有効性を失ってしまう。与えられた検索ベクトルの最近接要素を高速に検索するためには、与えられた検索ベクトル毎にそれに対する検索対象データを高速に限定することが有効である。このような検索対象の限定は一様ランダムに分布するようなデータの場合は困難であるが、データがクラスタを成すように分布している場合は極めて有効である。この場合、検索対象の限定は、未知データがどのクラスに属するかを決定する多クラス識別であるとみなすことができる。このような多クラス識別問題は従来パターン識別の分野で研究が進められてきているが、識別率100%を達成することは現実には困難である。したがって、できるだけ精度の高い検索限定を行うためには、未知入力に対して所属する確率が最も高いクラス1つを返すのではなく、入力に応じて信頼度の高い複数のクラスを返すような多重仮説生成型の識別方式が望ましい。本年度の研究においては、文字画像を対象とし、SVM (support vector machine)を用いて多重仮説を生成する方式の検討を行った。本来SVMは2分識別を行うものであるので、多クラス識別に応用する場合は工夫が必要である。学習が高速で識別も高速に実現可能な手法どしてDAGSVMが知られているが、この手法を用いて多重仮説を生成することは困難である。本研究では、クラス類似性を2クラス識別SVMの汎化誤差推定量と検索毎のデータに対するSVM出力から計算する手法を提案し、その有効性を示している。
|