2014 Fiscal Year Annual Research Report
フィルタ型特徴選択法の統一理論と高性能アルゴリズム
Project/Area Number |
26280090
|
Research Institution | Gakushuin University |
Principal Investigator |
久保山 哲二 学習院大学, 計算機センター, 教授 (80302660)
|
Co-Investigator(Kenkyū-buntansha) |
川前 徳章 東京電機大学, 公私立大学の部局等, 研究員 (30447031)
申 吉浩 兵庫県立大学, その他の研究科, 教授 (60523587)
チャクラボルティ バサビ 岩手県立大学, ソフトウェア情報学部, 教授 (90305293)
|
Project Period (FY) |
2014-04-01 – 2017-03-31
|
Keywords | 特徴選択 / 機械学習 / カテゴリカルデータ |
Outline of Annual Research Achievements |
本研究では、カテゴリカル・データを対象としたフィルターアプローチに基づく高速な特徴選択アルゴリズムCWCについて理論、実装、応用の3つの面から研究を進めている。CWCのアルゴリズムは、非常に単純であるにもかかわらず非常に高い性能を示す。その理由について、理論的に解明することを研究初年度の最も重要な研究課題としていた。理論的な分析の対象は、様々な特徴選択アルゴリズムに用いられている、特徴集合によるデータクラスの説明能力の指標である一貫性評価尺度(Inconsistency measure)である。よく知られたICR(inconsistency rate)やCWCで用いられている2値の評価尺度の他にも様々な評価尺度があるため、まず既存の様々な特徴選択アルゴリズムから、一貫性評価尺度を洗い出し、相互の関係を比較するための理論構築を行った。 その結果、CWCの指標と、既存の様々な指標との間には、データ識別の粒度の観点から「粗さ」の尺度を導入することができ、既存のさまざまな指標間の順序関係が示せることがわかった。また、特徴選択の性能は、指標の「粗さ」と密接な関係があることが実験により確認できつつある。このように、特徴選択指標間の関係性を統一的記述するための方法はこれまで存在しなかったが、本研究により、分類のための特徴集合の尺度を統一的に記述するためのフレームワークが示せた。 また、実装についても、様々な応用データを対象にする場合、ほとんどのエントリーがゼロであるようなスパースデータを効率的に処理するための仕組みが必須であることがわかった。そのため、スパースデータを処理するためのデータ構造と探索アルゴリズムを設計した。 これらの成果については、部分的には国際ワークショップ査読論文や研究会発表にて公表済みであるが、現在、より緻密な評価および実装設計について論文を準備中である。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
本研究の中心的な課題は、特徴集合によるクラス分類性能の評価指標間の関係を明らかにする理論の構築であるが、理論構築および実験による部分的確認の結果、当初の予定よりも一般性の高い良好な成果が得られている。また、パッケージ化については、C++による実装が完成しており、現在、さらに、スパースデータに対応するための実装を付加して再設計しているところである。平成26年度に予定していた離散化等のCWCの周辺技術の開発については若干遅れ気味であるが、研究の要であるCWCの理論的解析と実装の高速化設計が順調に進んでおり、この部分に研究のリソースを集中していることから、その他の副次的な研究課題へ割く時間の配分が減少しているためであり、研究全体としては順調に進展している。
|
Strategy for Future Research Activity |
理論面では、特徴集合によるクラス分類性能を特徴付けるためのさらに統一的な指標を示し、新しい指標の提案をするとともに、実験的にもより網羅的にその有効性を示すこを予定している。 実装面においては、現実装のさらなる効率化を目指して、探索アルゴリズム、データ構造の両面から改良を進めている。とくに、研究計画には盛り込んでいなかったが、特徴選択を用いた様々な応用問題に取り組む過程で、実データに多く見られる巨大な特徴集合をもつスパースデータに対応した効率的なデータ構造と探索アルゴリズムの実装が必要であることが明らかになった。そのため、今後、重点的にスパースデータに対応した実装をすすめる。また、CWCの有効性を示し、適用領域を拡大するためにも、この実装を用いた膨大なデータへの応用を示すことを目標とする。
|
Causes of Carryover |
予定していた国際会議への参加が1件なくなったため。
|
Expenditure Plan for Carryover Budget |
今年度、再度、国際会議へ論文を投稿し、その旅費に充てる予定である。
|