ラベラーによってデータに対する感じ方が異なり、結果としてラベル付けが異なるという主観性が絡む問題を研究の対象とし、2つのアプローチによる研究を行った。
1つ目のアプローチとして、主観的ラベルの問題を、データが与えられたときのクラスの事後確率が1未満である問題(もしくは背後にあるベイズ誤差が正の値になる問題)と捉えた。表現力の高いモデルを用いた場合には、学習中に訓練損失は容易にゼロ付近にまで下がってしまうが、ベイズ誤差が正であるならば、訓練損失がゼロ付近まで下がってしまうことは過学習がすでに起きていることを示唆している。この問題に対して、ある程度訓練損失が小さくなれば、それ以上下がらないようなアルゴリズムを設計した。様々なベンチマークデータセットを用いた実験により、提案手法により過学習が回避され、汎化性能が向上することを確認し、理論的な性質についても解析を行った。本研究は機械学習のトップ国際会議の一つであるICML 2020に採択され、電子情報通信学会第23回情報論的学習理論ワークショップにて優秀発表賞ファイナリストとして選ばれた。
2つ目のアプローチとして、主観的ラベルの問題を、ラベラーのラベル付けの誤差の問題として捉えた。通常の教師あり学習では、訓練データのラベルにノイズが加わる問題は近年活発に研究されてきたが、ラベルノイズは補ラベル学習の訓練データにも生じることがある。補ラベル学習というのは、各データに対してデータが所属しないクラスが一つ与えられる問題設定で、正解ラベルが一つも与えられない中で正解ラベルを予測する分類器の学習を試みる問題である。学習アルゴリズムが補ラベルに対する雑音の影響を受けないような損失関数の条件を導出し、実験によりその条件を満たす損失関数が良い分類性能を示すことがわかった。本研究は国内学会の第42回IBISML研究会で発表した。
|