研究課題/領域番号 |
20J11937
|
研究種目 |
特別研究員奨励費
|
配分区分 | 補助金 |
応募区分 | 国内 |
審査区分 |
小区分60010:情報学基礎論関連
|
研究機関 | 東京大学 |
研究代表者 |
石田 隆 東京大学, 新領域創成科学研究科, 特別研究員(DC2)
|
研究期間 (年度) |
2020-04-24 – 2022-03-31
|
研究課題ステータス |
完了 (2020年度)
|
配分額 *注記 |
2,300千円 (直接経費: 2,300千円)
2020年度: 1,200千円 (直接経費: 1,200千円)
|
キーワード | 機械学習 |
研究開始時の研究の概要 |
データの正確なクラスラベルが収集しやすい分野においては、機械学習の分類アルゴリズムを用いることで良い精度を得ることができる。クラスラベルが客観的に評価できる問題であれば正確なクラスラベルは収集しやすいものの、「印象が良いか悪いか」や「料理が美味しいかどうか」などの場合は、客観的な定義を与えることができない。本研究の目的は正確なクラスラベルの収集が困難な場合、特に主観的ラベルが収集されてしまう場合を対象とした機械学習の研究を行うことである。異なる主観性を持つラベル付け要員から収集されたデータを対象とした分類アルゴリズムを提案することを目指す。
|
研究実績の概要 |
ラベラーによってデータに対する感じ方が異なり、結果としてラベル付けが異なるという主観性が絡む問題を研究の対象とし、2つのアプローチによる研究を行った。
1つ目のアプローチとして、主観的ラベルの問題を、データが与えられたときのクラスの事後確率が1未満である問題(もしくは背後にあるベイズ誤差が正の値になる問題)と捉えた。表現力の高いモデルを用いた場合には、学習中に訓練損失は容易にゼロ付近にまで下がってしまうが、ベイズ誤差が正であるならば、訓練損失がゼロ付近まで下がってしまうことは過学習がすでに起きていることを示唆している。この問題に対して、ある程度訓練損失が小さくなれば、それ以上下がらないようなアルゴリズムを設計した。様々なベンチマークデータセットを用いた実験により、提案手法により過学習が回避され、汎化性能が向上することを確認し、理論的な性質についても解析を行った。本研究は機械学習のトップ国際会議の一つであるICML 2020に採択され、電子情報通信学会第23回情報論的学習理論ワークショップにて優秀発表賞ファイナリストとして選ばれた。
2つ目のアプローチとして、主観的ラベルの問題を、ラベラーのラベル付けの誤差の問題として捉えた。通常の教師あり学習では、訓練データのラベルにノイズが加わる問題は近年活発に研究されてきたが、ラベルノイズは補ラベル学習の訓練データにも生じることがある。補ラベル学習というのは、各データに対してデータが所属しないクラスが一つ与えられる問題設定で、正解ラベルが一つも与えられない中で正解ラベルを予測する分類器の学習を試みる問題である。学習アルゴリズムが補ラベルに対する雑音の影響を受けないような損失関数の条件を導出し、実験によりその条件を満たす損失関数が良い分類性能を示すことがわかった。本研究は国内学会の第42回IBISML研究会で発表した。
|
現在までの達成度 (段落) |
翌年度、交付申請を辞退するため、記入しない。
|
今後の研究の推進方策 |
翌年度、交付申請を辞退するため、記入しない。
|