2017 Fiscal Year Research-status Report
ビッグデータにスケールする一貫性指標に基づいた特徴分析
Project/Area Number |
16K12491
|
Research Institution | University of Hyogo |
Principal Investigator |
申 吉浩 兵庫県立大学, 応用情報科学研究科, 教授 (60523587)
|
Project Period (FY) |
2016-04-01 – 2019-03-31
|
Keywords | 機械学習 / クラスタリング / 特徴選択 / 侵入検知 / 教師なし学習 |
Outline of Annual Research Achievements |
教師なし特徴値選択のための新しいアルゴリズムを考案し、その有効性を実験により確かめた。現在論文執筆中である。教師なし特徴選択では、特徴を選択する目標となるクラス情報がないため、そもそも何を求めるべきなのかが明確ではない。今回の研究では、特徴の選択ではなく、特徴値を選択するという方針のもとに、新たな基準を導入し、かつ、その評価方法についても新たな考え方を提案した。特徴値の選択の有効性を、情報理論にもとづいて示すことにより、理論的な裏付けも与えた。また、実験による評価では、特徴選択のチャレンジで用いられているベンチマークデータセット(特徴選択が比較的困難なデータセット)に対して、もともと与えられていたクラスをかなりの程度忠実に再現することができる。データセットによっては、NMI(正規化相互情報量)の尺度において、教師あり特徴選択をも改善している。また、考案したアルゴリズムは、ビッグデータにも適用できる高速性を有することを重要な性能目標とした。実際、100,000個の特徴をもつデータセットに対して、数十ミリ秒で30個の特徴値を選択するなど、驚異的といってもよい速度性能を示している。成功の理由は、二分探索が可能となるように、目的関数を設計した点にある。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
29年度までに教師あり特徴選択のための超高速かつ高精度のアルゴリズムを考案しているが、30年度は計画通り、当アルゴリズムの論文を執筆し、出版した。特徴選択の特集号に投稿したもので、それなりのサーキュレーションを期待できるものと考える。このアルゴリズムに関しては、ソースプログラムの整備も終えているので、近々にGit-Hubで公開を行う予定である。教師あり学習での成果を踏まえ、30年度は、計画に従い、教師なし特徴選択の研究に著手した。教師なし学習では、クラス情報という目標が設定されていないという理由から、新たな設計基準を考案しなければならないという課題が存在する。30年度は、特徴値選択という新たな概念と、特徴値選択にもとづく、新たな選択基準とを提案するところまでが計画であり、31年度に具体的なアルゴリズムを考案する予定であった。しかし、30年度にアルゴリズムの考案にまで至り、しかも、精度・高速性において、予期した以上のよい性能を示しているう。ソースコードの公開による、研究成果の活用の促進と、フィードバックの獲得という観点からは作業が遅れているが、今年度の成果として得られた教師なし特徴値選択アルゴリズムの性能は予想を上回るもので、来年度の計画成果を先取りしている。総合的に評価して、概ね順調に推移していると考える。
|
Strategy for Future Research Activity |
教師なし学習における特徴値選択の研究をすすめる過程で、教師あり学習における新たなアイデアを得た。第一に、特徴ではなく特徴値を選択することの理論的・実用的メリットが明らかになったことから、教師あり学習においても特徴値選択アルゴリズムを考案することの意義が出てきた。第二に、特徴(値)選択の評価指標として、正規化相互情報量(NMI)を利用することに、理論的に意味があることがわかった。しかしながら、実際の複数の分類器を用いた場合の分類性能と正規化相互情報量との関係は知られておらず、実験を通して検証することに重要な意味がある。また、正規化相互情報量を最大化するようにアルゴリズムを構成することにより、従来の高速性はそのままに、精度を改善できる期待がある。31年度は、上記の課題に取り組みたい。具体的には、広範な実験により、正規化相互情報量と分類性能との間の理論的相関を実証し、かつ、正規化相互情報量を目的関数とする新たなアルゴリズムを考案する。この結果が揃えば、教師あり学習、教師なし学習の両方において、情報理論的な裏付けもあり、精度・高速性、特に高速性に関して、他の手法を大きく凌駕する手法の開発に成功することになり、当初計画を大きく上回る形で研究を締めくくることが可能となる。
|
Causes of Carryover |
当初予定していた海外発表を最終年度に持ち越したため。最終年度となる平成30年度に、研究成果を発表する予定である。
|