2017 Fiscal Year Annual Research Report
Development and Application of an Imbalanced Data Classifier
Project/Area Number |
15K00323
|
Research Institution | Doshisha University |
Principal Investigator |
大崎 美穂 同志社大学, 理工学部, 教授 (30313927)
|
Project Period (FY) |
2015-04-01 – 2018-03-31
|
Keywords | 不均衡データ分類 / 混同行列 / カーネルロジスティック回帰 / 最小分類誤り学習 / 一般化確率的勾配法 |
Outline of Annual Research Achievements |
がんの診断やネットワーク不正侵入の検知等,多岐に渡る分野に共通して,少数の危機的事例(少数クラス)と多数の通常的事例(多数クラス)の分類が求められる.しかし,通常の分類器はデータの不均衡性に強い影響を受け,少数クラスの見落としを生じる.過去に不均衡データ分類器が提案されたが,多くは経験則やタスク依存の知識に基づき,各クラスの性能とクラス間の性能バランスにも問題があった.本課題ではこれらの問題を解決すべく,汎用性と高性能を兼ね備えた不均衡データ分類器の開発に取り組んだ.
我々は昨年度までに,カーネルロジスティック回帰(KLOGR),最小分類誤り学習・一般化確率的勾配法(MCE/GPD),混同行列(CM)を融合した新しい不均衡データ分類器であるCM-KLOGRを提案した.そして,その理論構築・定式化,ソフトウェア開発・動作確認を行った.また,CM-KLOGRの有効性を検証する実験の試行,および,学術論文の執筆も開始した.
最終年度である今年度は,昨年度後半に試行した検証実験の条件(評価の枠組み,比較対象,用いるデータセット等)を検討・改善し,KLOGR,サポートベクターマシン(SVM),不均衡データ分類用の前処理手法であるサンプリング法を組み込んだKLOGR,同じくサンプリング法を組み込んだSVMを比較対象として,不均衡データの分類性能を詳細に調べた.その結果,CM-KLOGRは比較対象よりも高い分類性能を達成し,昨年度後半の試行で示唆された有効性をより明確に確認できた.さらに,本課題の全ての研究成果をとりまとめて公表すべく,学術論文を執筆投稿した.その結果,IEEE Transactions on Knowledge and Data Engineeringに採択されて出版に至った.
|