2018 Fiscal Year Research-status Report
様々な低品質データに対応するロバストな分類アルゴリズムの開発
Project/Area Number |
18K11448
|
Research Institution | Waseda University |
Principal Investigator |
須子 統太 早稲田大学, 社会科学総合学術院, 准教授 (40409660)
|
Project Period (FY) |
2018-04-01 – 2021-03-31
|
Keywords | パターン認識 / ラベルノイズ / EMアルゴリズム / 漸近解析 |
Outline of Annual Research Achievements |
蓄積されたデータをもとに,ある特徴量に対応するラベル(離散値)を予測する分類問題は,古くから統計学や機械学習,人工知能の分野で盛んに研究されている.近年様々な高精度な分類アルゴリズムが開発されたことにより,手書き文字認識,文書分類,購買行動予測など様々な場面でこれら分類アルゴリズムが活用されるようになってきた.その一方,必ずしも理想的な状況でデータが得られるとは限らず,低品質なデータに対する分類アルゴリズムの必要性が増してきている.そのため,ノイズを含むラベルからの学習や半教師あり学習など,様々な低品質なデータ取得状況に応じた分類手法の研究が個別に行われている.本研究では,分類問題におけるこれら低品質データの得られる状況を単一のモデルとして表現し,そのもとで高性能な分類アルゴリズムを構成することで,データの取得状況によらないロバストな分類アルゴリズムの開発を目的としている. 本研究ではデータの発生構造として生成モデルおよび識別モデルと呼ばれる確率的な発生モデルを仮定し,それぞれにラベルノイズモデルを仮定した場合の分類アルゴリズムの提案および性能評価を行う計画を立てている. 2018年度については,当初の計画通り,データの発生構造として基本的な生成モデルを仮定した場合の分類アルゴリズムの開発および,そのアルゴリズムの性能評価を行った.その結果,ノイズ分布が未知の場合において,分類アルゴリズムを構成しその性能を実験により確認したまた,同様の条件のもとで,構成した分類アルゴリズムの漸近的な性能を理論評価により明らかにした.
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
2018年度の具体的な計画は,基本的な生成モデルに対する分類アルゴリズムの性能評価および,高性能な分類アルゴリズムの開発.生成モデルとして基本的な確率モデルを仮定したもとで,EMアルゴリズム,変分ベイズアルゴリズム,MCMC法などを利用した基本的な分類アルゴリズムを構成し,それぞれの性能を人工データと実データ(新聞記事データ,企業ECサイトの購買データ)に対し評価する実験を行こと,更に実験結果を分析することで高性能な分類アルゴリズムの開発を行ことであった. しかし,実際に構成し評価を行ったアルゴリズムはEMアルゴリズムを利用したアルゴリズムのみであり,その他,変分ベイズやMCMCによるアルゴリズムとの比較はできていない. しかしながら,当初予定していたノイズ分布が未知のアルゴリズムではなく,ノイズ分布が未知の場合のアルゴリズムを構成できたため,当初予定よりも発展した結果を得られたと考えられる.更に,アルゴリズムの実験的な評価だけでなく,漸近解析を用いた理論的な評価も行った.これは当初計画以上の成果であると考えられる. 以上のよるに,当初計画から微修正を行った結果,得られた結果は当初予定通りではないが,「計画が予定通り進まない場合」に想定していた範囲内の変更であり,概ね順調に進行していると考えている.
|
Strategy for Future Research Activity |
前述の「現在までの進捗状況」の通りここまでは概ね順調に研究が進展しているが,今後については計画を修正したいと考えている.当初予定では,2019年度,2020年度と,2018年度に構成した分類アルゴリズムを元にし,ラベルノイズモデルは固定したまま,データの発生モデルを拡張または変更することで新たなアルゴリズムの開発を予定していた.しかしながら,研究を進める中で,実社会における問題に対応するには,データの発生モデルの検討より,ラベルノイズモデルに対し,モデルの拡張や新たなモデルの検討の方がより重要な問題である事が分かってきた.そのため,今後の研究計画を以下のように変更し研究を推進したい. 2019年度は,様々な実際の低品質データの特徴を考慮し,2018年度に利用したラベルノイズモデルの一般化および他のラベルノイズモデルを提案し,そのもとでデータの発生モデルとしては生成モデルを仮定した場合の分類アルゴリズムの提案およびその性能評価を行う. 2020年度は,2019年度に提案したあらたなラベルノイズモデルに対し,データの発生モデルを識別モデルや非線形構造を仮定した場合に拡張し,より実際の分類問題に対応可能な分類アルゴリズムの開発およびその性能評価を行う. 但し,上記変更は,当初計画における「計画が予定通り進まない場合の対応」で想定していた範囲内の変更である.
|
Causes of Carryover |
2018年度の支払い請求額1,400,000円に対し,実際の直積経費使用額は1,358,799円であり,ほぼ計画通りの執行であると考えている.差額については41,201円と比較的少額であり,この差額分については,2019年度の当初予定に対し消耗品費に上乗せし使用予定である.
|