2016 Fiscal Year Research-status Report
Project/Area Number |
15K00323
|
Research Institution | Doshisha University |
Principal Investigator |
大崎 美穂 同志社大学, 理工学部, 教授 (30313927)
|
Project Period (FY) |
2015-04-01 – 2018-03-31
|
Keywords | 不均衡データ分類 / 混同行列 / カーネルロジスティック回帰 / 最小分類誤り学習 / 一般化確率的勾配法 |
Outline of Annual Research Achievements |
がんの診断やネットワーク不正侵入の検知等,多岐に渡る分野に共通して,少数の危機的事例(少数クラス)と多数の通常的事例(多数クラス)を分類することが求められる.しかし,一般的な分類器はデータの不均衡性に強い影響を受け,少数クラスの見落としを生じる.過去に不均衡データ分類器が提案されたが,多くは経験則やタスク依存の知識に基づき,各クラスの性能とクラス間の性能バランスにも問題があった.本課題ではこれらの問題を克服できる,すなわち,汎用性と高性能を兼ね備えた不均衡データ分類器の開発を目指す.我々は昨年度に,カーネルロジスティック回帰(KLOGR),最小分類誤り学習・一般化確率的勾配法(MCE/GPD),混同行列(CM)を融合した新しい不均衡データ分類器であるCM-KLOGRを提案した.まずは最も重要な理論構築・定式化を行い,次にソフトウェア開発に着手した.
今年度の前半は,昨年度実装したソフトウェアの詳細なデバッグと動作確認を行った.CM-KLOGRでは学習更新量を求める際に複雑な微分演算を要するため,複数名により注意深くデバッグした.そして,性質を制御できる人工データ等を用いて動作の正しさを確認した.さらに比較対象として,KLOGR,サポートベクターマシン(SVM),および,不均衡データ分類用の前処理手法であるサンプリング法のソフトウェアを実装した.今年度の後半は,様々なベンチマークデータを用いてCM-KLOGRの有効性を検証する実験を行った.実験設計では過去の関連文献を詳細に調査し,一般的で妥当と考えらえるデータセットと実験条件を決定した.そして,CM-KLOGRと比較対象の手法(KLOGR,SVM,これらとサンプリング法の組合せ)をデータセットに適用し,各手法の性能を調べた.その結果,多くの条件でCM-KLOGRは他手法よりも高い性能を示し,その有効性が明らかになった.
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
昨年度,CM-KLOGRのソフトウェア開発に早期着手したことが功を奏し,今年度も予定通りのペースで研究を推進できた.研究の信頼性のためには,ソフトウェアのデバッグと動作確認に万全を期す必要がある.そこで,本課題代表者と大学院生により,半年以上かけて綿密なデバッグと動作確認に尽力した.また,これと並行して実験設計を行ったので,ソフトウェアの完成後,すぐに実験を開始できた.CM-KLOGRや比較対象の手法には大規模な数値計算を伴うハイパーパラメータ設定が必要であったこと,および,実験で得たデータが大量で集計に時間がかかったことから,一時的に研究の遅れが危惧された.しかし,実験用計算機の追加と集計プログラムの開発によって遅れを回避できた.
|
Strategy for Future Research Activity |
本課題の最終年度である次年度は,追加実験を行ってCM-KLOGRの有効性をより明確にするとともに,研究成果の集大成として学術論文を執筆投稿する.これまでに数回,研究の進捗を報告する学会発表を行った.その中で,CM-KLOGRの利点(ニーズに応じて自由に,異なる種類の性能を高めることができる)が明らかになる実験をすべき,との意見を受けたので,次年度の前半では追加実験を行う.次年度の後半では今年度と次年度の前半に得られた実験結果を総合して,学術論文の執筆に取りかかる.現時点では,機械学習と知識発見の国際学術雑誌である IEEE Transactions on Knowledge and Data Engineering を投稿先として考えている.
|