研究実績の概要 |
本年度は昨年度から継続して疑似ラベルを用いた自己学習アルゴリズムの性能を詳細に解析した。その結果、自己学習は学習の繰り返し回数が少ない場合には、若干のノイズを含んだラベルに対してモデルをフィットさせるという直感的な描像のもとに動作し、信頼度の低いラベルをデータから省く疑似ラベル選択(Pseudo-label selection,PLS)というヒューリスティクスが非常に有用であることが明らかとなった。これは先行研究において、総繰り返し回数が10回程度の場合にはPLSの導入が重要であるという実験の報告と整合的である。一方、総反復回数が大きい場合には一回一回の更新におけるパラメータの変動量を小さくし、微少な更新を積み重ねる戦略が有効であることが明らかとなった。これは、疑似ラベルの損失が、パラメータ更新時に蓄積されうるノイズを打ち消す正則化のような役割を果たすためである。また、昨年度ラベルバイアスによって性能が低下することを報告したが、これはバイアス項と重みベクトルの大きさの比が大きくなる可能性があるためであり、そのような場合には疑似ラベルをソフトラベルからハードラベルへと徐々にアニーリングしていくことで回避出来ることも示している。これまでにも自己学習の反復を長時間行うことで、特定の場合にベイズ最適な分類器が得られるという理論的な成果が報告されていたが、本研究はその背後にある描像を明確にしたものあると言える。これらの結果はいくつかの学会やセミナーで発表し、論文として準備中である。
|