研究課題/領域番号 |
16K12491
|
研究種目 |
挑戦的萌芽研究
|
配分区分 | 基金 |
研究分野 |
知能情報学
|
研究機関 | 学習院大学 (2019) 兵庫県立大学 (2016-2018) |
研究代表者 |
申 吉浩 学習院大学, 付置研究所, 教授 (60523587)
|
研究期間 (年度) |
2016-04-01 – 2020-03-31
|
研究課題ステータス |
完了 (2019年度)
|
配分額 *注記 |
3,380千円 (直接経費: 2,600千円、間接経費: 780千円)
2018年度: 1,170千円 (直接経費: 900千円、間接経費: 270千円)
2017年度: 1,170千円 (直接経費: 900千円、間接経費: 270千円)
2016年度: 1,040千円 (直接経費: 800千円、間接経費: 240千円)
|
キーワード | 特徴選択 / 教師あり学習 / 教師なし学習 / アルゴリズム / 機械学習 / クラスタリング / 侵入検知 / ビッグデータ / 分類 |
研究成果の概要 |
本研究では、教師あり学習と教師なし学習の両面から、ビッグデータにスケールする高速性を有する実用的な特徴選択アルゴリズムの開発を行った。 教師あり学習では、従来から特徴選択の評価に使われていた相関量と特徴数の指標に対し、特徴選択後の機械学習アルゴリズムに影響を与えるノイズを新たに指標に追加し、体系的な評価方法を提案した。さらに、この三指標をバランスさせる高速なアルゴリズムとして、BornFSを提案した。 教師なし学習における特徴選択は、教師あり学習の場合に比して格段に難問であり、今まで知られているアルゴリズムは速度性能にかけていた。本研究では、非常に高速なアルゴリズムUFVSを提案した。
|
研究成果の学術的意義や社会的意義 |
特徴選択は機械学習の中心問題の一つであり、実用的にも、重要な役割を果たす。例えば、DNA配列から特定の疾病の原因となる塩基を決定する問題は、バイオインフォマティクスの観点から見れば、特徴選択の適用に他ならない。他にも、ネットワークに侵入したパケットの検知において、パケットヘッダーのどのフィールド値が証拠になるかを決定することも、特徴選択の適用で可能となる。また、特徴選択を行った後で、機械学習を行うことで、正確性と速度性能が改善されることも広く知られている。現実の問題では、データにラベルを付与することが容易でないが、教師なし学習における実用的な特徴選択に先鞭をつけた意義も有する。
|