本年度の研究目標は、識別能力の評価とクラス概念の記述の一般性を同時に最適化するような、変形0-1整数計画を利用した、判別分析のための新しい「特徴選択アルゴリズム」を開発することであった。具体的には、サンプル対が生成する特別な形の領域に含まれるサンプルの数を用いて、分離の程度を表現する尺度と記述の一般性を評価する尺度を構成する。これらの尺度に関する制約条件式の下で、選択すべき特徴数を最小化する、変形0-1整数計画法のアルゴリズムの構成である。C言語によるアルゴリズムの記述を完了し、種々の人工データと実データによって、初期の目的が達成されているかどうかを評価した。その結果、 (1)ソナーデータ(シドニー大学)による検証では、60特徴のうち、機雷と岩礁の区別に有用な特徴はただ1つしか存在しないことが見いだされた。この結果は、C4.5等の決定木による結果とは大きく異なる。(実際、C4.5では、5〜6個の特徴が重要な特徴として、選択され、60パーセント台の正答率しか得られていない)一方、選択された1個の特徴によって、最短距離法という最も単純な認識法で99パーセントの認識率が得られることから、提案のアルゴリズムの有効性が確認された。 (2)手書き漢字認識(電総研のデータベースETL-8を使用)によって、対象文字種、対象サンプルによって識別に使用する特徴の組を動的に変化させる文字認識法についても考察した。その結果、平均的に大幅に特徴数を減らしても高い認識率の得られることを確認した。 (3)(1)および、(2)の成果は、2000年6月にベルギーのブリュッセルで行われた国際会議OSDA-2000において報告した。
|