2016 Fiscal Year Research-status Report
ビッグデータにスケールする一貫性指標に基づいた特徴分析
Project/Area Number |
16K12491
|
Research Institution | University of Hyogo |
Principal Investigator |
申 吉浩 兵庫県立大学, 応用情報科学研究科, 教授 (60523587)
|
Project Period (FY) |
2016-04-01 – 2019-03-31
|
Keywords | 機械学習 / 特徴選択 / 教師なし学習 / クラスタリング / 侵入検知 |
Outline of Annual Research Achievements |
今年度は教師なし学習における特徴選択における研究において、以下の三つの成果を得た。 第一に、教師あり学習では、クラスラベルとの相関を軸に特徴を選択していくが、教師なし学習ではこのような指標が存在しない。本研究では、条件付きエントロピーに基づき、教師なし学習における特徴選択のための新たな指標を導入するとともに、ビッグデータにスケールする新規な特徴選択アルゴリズムを開発した。さらに、侵入検知に関するよく知られた大規模データセットに適用した(KDD CUP)したところ、従来の教師あり学習に基づくアルゴリズムに匹敵する分類性能を示した。選択された特徴の値の組み合わせに従ってラベリングを行い、実ラベルとの比較を行ったところ、F値で0.92を超える成績を示した。 第二に、教師なし特徴選択とクラスタリングの関係を定量的に評価する方法も示した。教師なし特徴選択の重要な応用としてクラスタリングへの適用があるが、教師なし特徴選択によるクラスタリングの数理的な解明の基礎となるものと期待している。 第三に、「特徴値選択」という新しい考え方を示した。上記二つの定量的指標に基づいて、特徴選択より特徴値選択が優れていることを、理論的に示した。特徴値選択とは、特徴を選択するのではなく、特徴値を選択する。直感的には、特徴の値には、「意味のある値」と「意味のない値」、もしくは、おのおの異なる観点から意味を持つ値が混在する可能性があるが、特徴値選択では、これらの区別を考慮した選択が可能となる。本研究ではこの特性を定量的に評価した。 現在、上記の結果を複数の論文にまとめている。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
論文投稿は現在準備中である点では、計画に若干の遅れが出ているが、教師なし特徴選択に対して、数理的・定量的に評価する枠組みの構築にいたった点では、予想を超えた成果を得ている。これは、内容の充実に注力した結果として、論文投稿などの発表の準備が遅れたものである。当初計画に比較した場合、加点要因と減点要因が存在するので、「おおむね順調に進展」と評価したが、研究内容としては「計画以上の進捗」を得たと考えている。
|
Strategy for Future Research Activity |
昨年度に得た結果に基づき、複数の国際学会に投稿するべく論文を執筆しているところである。また、新たに考案した理論とアルゴリズムの検証実験を行い、そのフィードバックを得て、理論を発展させ、アルゴリズムを改善していきながら、更に論文を執筆する予定である。情報セキュリティの専門家、社会ネットワークの専門家との協力体制もできていることから、多様な応用領域での検証が可能になると考えている。
|
Causes of Carryover |
28年度は、理論の構築・アルゴリズムの考案に注力し、計画以上の進捗を得た。その代償として、論文投稿・実験を後回しとしたため、旅費・実験補助人件費・委託開発を実施しなかった。
|
Expenditure Plan for Carryover Budget |
29年度以降は、28年度の成果の検証と結果に関する論文投稿に重点を置く予定である。そのため、国際学会での発表、実験のためのアルバイト雇用、ソースコード公開のための開発委託を行う予定である。
|