2019 Fiscal Year Annual Research Report
Bigdata scalable feature analysis based on consistency measures
Project/Area Number |
16K12491
|
Research Institution | Gakushuin University |
Principal Investigator |
申 吉浩 学習院大学, 付置研究所, 教授 (60523587)
|
Project Period (FY) |
2016-04-01 – 2020-03-31
|
Keywords | 特徴選択 / 教師あり学習 / 教師なし学習 / アルゴリズム |
Outline of Annual Research Achievements |
今年度は、教師あり学習と教師なし学習の両面から特徴選択に取り組むと共に、特徴選択に変わって特徴値選択の有効性を情報理論の立場から示した。 教師あり学習では、BornFSという高速アルゴリズムを提案した。現在、投稿中。BornFSは、ビッグデータにスケールする実用的な高速性と正確性の両立を目指す。しかし、特徴選択の正確性の評価には、定まった指標が存在せず、本研究では、従来から知られる相関量、特徴数に、ノイズを指標に加えることで、網羅的に特徴選択の性能評価を行うことを提案した。相関量は、例えば、相互情報量で評価できる量であり、ノイズは、条件付き情報エントロピーで評価することができる。BornFSは、ベンチマークとなるアルゴリズムに対して、相関量、特徴数、ノイズの三者のバランスを保つことができる。筆者は、10年に渡り、特徴選択の問題に取り組み、理論的取り扱いから、実用性能を有するアルゴリズムの提案を行ってきたが、教師あり学習においてはBornFSを決定打としたいと考えている。 教師なし学習の研究はこの研究事業で取り組みを始めた。教師なし学習は、ガイドとなるクラスラベルが存在しないため、特徴選択の問題は難度が高くなり、かつ、理論的に解の唯一性が成り立たない。従来は、データが持つある種の構造、例えば、特徴空間内での分布に注目して、特徴選択を行うが、例えばデータが多様体的な構造を有する時、解は局所的にならざるを得ない。本研究では、高速なアルゴリズムで、かつ、ハイパーパラメータにより異なる局所解を出力するものを用いて、多面的に解を探索し、その中から目的にあったものを選ぶというパラダイムシフトを提案する。そのためのアルゴリズムとして、非常に高速なUFVSを提案した。このアルゴリズムは、国際会議ICAART2020で採択され、さらに、Selected Papersに選ばれた。
|