蓄積されたデータをもとに,ある特徴量に対応するラベル(離散値)を予測する分類問題は,古くから統計学や機械学習,人工知能の分野で盛んに研究されている基本的な問題のひとつである.近年様々な高精度な分類アルゴリズムが開発されたことにより,手書き文字認識,文書分類,購買行動予測など様々な場面でこれら分類アルゴリズムが活用されるようになってきた.その一方,必ずしも理想的な状況でデータが得られるとは限らず,低品質なデータに対する分類アルゴリズムの必要性が増してきている.そのため,ノイズを含むラベルからの学習や半教師あり学習など,様々な低品質なデータ取得状況に応じた分類手法の研究が個別に行われている.本研究では,分類問題におけるこれら低品質データの得られる状況を単一のモデルとして表現し,そのもとで高性能な分類アルゴリズムを構成することで,データの取得状況によらないロバストな分類アルゴリズムの開発を目的としている. 本研究ではデータの発生構造として生成モデルおよび識別モデルと呼ばれる確率的な発生モデルを仮定し,それぞれにラベルノイズモデルを仮定した場合の分類アルゴリズムの提案および性能評価を行う計画を立てていた.2021年度は,2020年度に引き続き,2019年度に行った提案アルゴリズムに対する漸近的な性能の理論解析ついての検討を更に発展させ,理論限界に関する詳細な考察を行った.この結果は現在論文誌へ投稿中である.
|