2020 Fiscal Year Research-status Report
様々な低品質データに対応するロバストな分類アルゴリズムの開発
Project/Area Number |
18K11448
|
Research Institution | Waseda University |
Principal Investigator |
須子 統太 早稲田大学, 社会科学総合学術院, 准教授 (40409660)
|
Project Period (FY) |
2018-04-01 – 2022-03-31
|
Keywords | パターン認識 / ラベルノイズ / EMアルゴリズム / 漸近解析 |
Outline of Annual Research Achievements |
蓄積されたデータをもとに,ある特徴量に対応するラベル(離散値)を予測する分類問題は,古くから統計学や機械学習,人工知能の分野で盛んに研究されてい0る.近年様々な高精度な分類アルゴリズムが開発されたことにより,手書き文字認識,文書分類,購買行動予測など様々な場面でこれら分類アルゴリズムが活用されるようになってきた.その一方,必ずしも理想的な状況でデータが得られるとは限らず,低品質なデータに対する分類アルゴリズムの必要性が増してきている.そのため,ノイズを含むラベルからの学習や半教師あり学習など,様々な低品質なデータ取得状況に応じた分類手法の研究が個別に行われている.本研究では,分類問題におけるこれら低品質データの得られる状況を単一のモデルとして表現し,そのもとで高性能な分類アルゴリズムを構成することで,データの取得状況によらないロバストな分類アルゴリズムの開発を目的としている. 本研究ではデータの発生構造として生成モデルおよび識別モデルと呼ばれる確率的な発生モデルを仮定し,それぞれにラベルノイズモデルを仮定した場合の分類アルゴリズムの提案および性能評価を行う計画を立てていた. 2020年度は,2019年度に行った提案アルゴリズムに対する漸近的な性能の理論解析ついての検討を更に発展させ,理論限界に関する詳細な考察を行った.
|
Current Status of Research Progress |
Current Status of Research Progress
3: Progress in research has been slightly delayed.
Reason
2019年度は変更された計画に従い,ラベルノイズモデルの更なる一般化として,潜在構造を持つ分類問題に対しラベルノイズモデルを拡張し分類アルゴリズムの開発とその性能評価を行った.また,2018年度に行った漸近的な性能の理論解析の結果について,一部不十分な点が判明したため追加の研究を行い,提案したアルゴリズムの理論性能について詳細な解析結果を得た.特に,提案したモデルに対する新たな分類アルゴリズムについて,実験上の性能と理論解析における性能限界との間に大きな乖離がある事が分かった. それを受け2020年度は,提案アルゴリズムの性能を更に向上させる事ができる可能性から.分類アルゴリズムの性能を理論限界に近づけるべく,アルゴリズムの挙動に対する詳細な調査および,それを元にしたアルゴリズムの改良を進める予定であった. しかしながら,新型コロナウイルス感染拡大を受け,授業のオンライン化等の教務負担が増大したことと,在宅ワークによる研究環境の整備に時間がかかったことにより,思うような進捗を得られなかった.
|
Strategy for Future Research Activity |
2021年度は,これまでの研究成果を踏まえ,2020年度にできなかった,分類アルゴリズムの性能を理論限界に近づけるべく,アルゴリズムの挙動に対する詳細な調査および,それを元にしたアルゴリズムの改良を進めて行く予定である.
|
Causes of Carryover |
新型コロナウィルスの影響により研究の進捗に遅れが出たことと,出張旅費が発生せず差額が発生してしまった.本年度は新型コロナウィルスの影響により,在宅での研究活動が長引く可能性があるため,在宅で研究活動を継続するための備品購入代として用品費,消耗品費に上乗せして使用したい.
|