2018 Fiscal Year Research-status Report
ビッグデータにスケールする一貫性指標に基づいた特徴分析
Project/Area Number |
16K12491
|
Research Institution | University of Hyogo |
Principal Investigator |
申 吉浩 兵庫県立大学, 応用情報科学研究科, 教授 (60523587)
|
Project Period (FY) |
2016-04-01 – 2020-03-31
|
Keywords | 機械学習 / クラスタリング / 特徴選択 / 侵入検知 / 教師なし学習 |
Outline of Annual Research Achievements |
以下の二方向で研究を行った。(1)既存の特徴選択アルゴリズムの性能改善、(2)教師なし学習のための新規の特徴選択アルゴリズムの開発。 (1)MrmrおよびCFSは、古典的なアルゴリズムであり、本事業で開発したsCWCやsLCCに比較すると実行速度で大きく劣り、正確性にも優位性はないが、Wekaなどの機械学習環境に実装されていることから、広く実用で利用されている。これらのアルゴリズムとその実装を調べた結果、メモリ・タイムトレードオフの手法を用いることにより実行速度を改善できることを見出し、データセットにより数倍~百数十倍の実行速度の改善を実現するMrmr+とCFS+を開発した。また、特定領域で広く利用されているGBCアルゴリズムは、Mrmrと遺伝子アルゴリズムに基づいている。本事業では、MrmrをMrmr+で置き換え実行効率を改善し、かつ、状態の選択を統計的・動的に決定する手法を導入することにより正確性を改善した。 (2)教師なし学習における特徴選択は、教師信号を利用できないこと、選択結果は適切な極小性を満足すれば、解としての意味を持つことの二つの理由により、教師あり学習の場合に比べて困難な研究課題である。従来は、擬似的ラベルを付与して特徴あり学習の問題に帰着する、データの多様体的構造を用いる、などの方法により第一の問題を解決しようとしてきたが、計算量が大きかった。第二の問題に対しては、それぞれのデータセットにとって「より重要な」特徴の意味づけを行おうという考え方が基本であったが、統計的な最低限の性質を満たす限りどのような特徴群も意味を持ち、本質的に正しい方向とは考えられない。本事業では、画期的に高速であり(特徴数・インスタンス数ともに数万でも100ミリ秒程度で実行可能)、かつ、パラメータ設定により選択特徴を変更するアルゴリズムを開発することで、この問題の解決に成功した。
|
Current Status of Research Progress |
Current Status of Research Progress
3: Progress in research has been slightly delayed.
Reason
既存アルゴリズムで広く利用されているMrmr、CFS、GBCの改良は、当初の計画になかった実施項目であり、既存研究のサーベイを実施する中で発見した課題の解決であったが、実用的には重要な貢献であったと考える。この点では、当初の計画を超えて、研究遂行の過程で新たな方向性を見出し、付加的な成果を挙げたものと評価できるが、その一方で、本年度の当初目標であった教師なし学習における特徴選択アルゴリズムの開発に関しては、研究・開発そのものは期間内に完了したものの、論文化・発表が遅れ、現在国際学会(ECML/PAKDD)に投稿中である。採録されれば、2019年9月に発表となる予定である。 本研究事業の大きな目標である、特に、教師なし学習における選択特徴の評価原理の発見については、以下の重要な発見があった。(1)従来の特徴を選択する手法ではなく、特徴値を選択する手法がより有効であることを、統計指標を用いて示した。(2)特徴(値)選択においては、教師あり学習の場合は一貫性指標(ベイズリスクなど)、教師なし学習の場合はカバレッジ特性のもとで、選択された特徴(値)の情報エントロピーを最小化する原理が適切であることを見出した。(3)教師あり学習の場合は、選択特徴の性能評価は、従来の分類器との組み合わせによる分類性能ではなく、正規化相互情報量(NMI)が適切であることを見出した。
|
Strategy for Future Research Activity |
本事業による、特徴選択より特徴値選択に統計的・実用的な観点から大きな利点があること、教師あり学習・教師なし学習のいずれにおいても情報エントロピーが重要な指標であること、教師あり学習において正規化相互情報量が選択特徴の評価に適当であること、の三項目の発見に基づき、sCWC及びsLCCのアルゴリズムを改善し、その性能評価を行う。sCWC及びsLCCでは、経験則的に、ベイズリスクと対称不確実性尺度の二つの指標を用いることで正確性の高い特徴選択ができることを得ていたが、今回の発見により、この経験則に理論的裏付けがつくとともに、よりよいアルゴリズムの設計方針が得られた。かつ、性能評価に、個別の分類器に依存しない正規化相互情報量を用いることで、より客観的な評価ができるようになると考えられる。実用的にも、大きな改善が得られるものと期待する。 本年度開発した教師なし学習の特徴値選択は、実用において大きな効用があることが期待できる。過去に国際学会のチャレンジで用いられたデータセットを用いた予備実験では良い結果が出ているので、現実の問題に適用して、その効用を検証する。「超高速なアルゴリズムを多くの回数実行し、多数の特徴選択を行い、その中から本来の目的に合致する特徴を選ぶ」手法は従来にない新規なものであり、環境開発も含めて、実用的な課題(監査データの分析、SNSデータの分析など)に適用することで、新たな結果が得られることが期待できる。
|
Causes of Carryover |
研究・開発そのものは期間内に完了したものの、論文化・発表が遅れ、期間延長を申請したため。成果を発表するための旅費にあてる。
|
Research Products
(3 results)