主観的ラベル付きデータに基づく機械学習の研究

研究課題

研究課題/領域番号	20J11937
研究種目	特別研究員奨励費
配分区分	補助金
応募区分	国内
審査区分	小区分60010:情報学基礎論関連
研究機関	東京大学
研究代表者	石田隆東京大学, 新領域創成科学研究科, 特別研究員(DC2)
研究期間 (年度)	2020-04-24 – 2022-03-31
研究課題ステータス	完了 (2020年度)
配分額 *注記	2,300千円 (直接経費: 2,300千円) 2020年度: 1,200千円 (直接経費: 1,200千円)
キーワード	機械学習
研究開始時の研究の概要	データの正確なクラスラベルが収集しやすい分野においては、機械学習の分類アルゴリズムを用いることで良い精度を得ることができる。クラスラベルが客観的に評価できる問題であれば正確なクラスラベルは収集しやすいものの、「印象が良いか悪いか」や「料理が美味しいかどうか」などの場合は、客観的な定義を与えることができない。本研究の目的は正確なクラスラベルの収集が困難な場合、特に主観的ラベルが収集されてしまう場合を対象とした機械学習の研究を行うことである。異なる主観性を持つラベル付け要員から収集されたデータを対象とした分類アルゴリズムを提案することを目指す。
研究実績の概要	ラベラーによってデータに対する感じ方が異なり、結果としてラベル付けが異なるという主観性が絡む問題を研究の対象とし、２つのアプローチによる研究を行った。１つ目のアプローチとして、主観的ラベルの問題を、データが与えられたときのクラスの事後確率が１未満である問題（もしくは背後にあるベイズ誤差が正の値になる問題）と捉えた。表現力の高いモデルを用いた場合には、学習中に訓練損失は容易にゼロ付近にまで下がってしまうが、ベイズ誤差が正であるならば、訓練損失がゼロ付近まで下がってしまうことは過学習がすでに起きていることを示唆している。この問題に対して、ある程度訓練損失が小さくなれば、それ以上下がらないようなアルゴリズムを設計した。様々なベンチマークデータセットを用いた実験により、提案手法により過学習が回避され、汎化性能が向上することを確認し、理論的な性質についても解析を行った。本研究は機械学習のトップ国際会議の一つであるICML 2020に採択され、電子情報通信学会第23回情報論的学習理論ワークショップにて優秀発表賞ファイナリストとして選ばれた。２つ目のアプローチとして、主観的ラベルの問題を、ラベラーのラベル付けの誤差の問題として捉えた。通常の教師あり学習では、訓練データのラベルにノイズが加わる問題は近年活発に研究されてきたが、ラベルノイズは補ラベル学習の訓練データにも生じることがある。補ラベル学習というのは、各データに対してデータが所属しないクラスが一つ与えられる問題設定で、正解ラベルが一つも与えられない中で正解ラベルを予測する分類器の学習を試みる問題である。学習アルゴリズムが補ラベルに対する雑音の影響を受けないような損失関数の条件を導出し、実験によりその条件を満たす損失関数が良い分類性能を示すことがわかった。本研究は国内学会の第４２回IBISML研究会で発表した。
現在までの達成度 (段落)	翌年度、交付申請を辞退するため、記入しない。
今後の研究の推進方策	翌年度、交付申請を辞退するため、記入しない。

報告書

(1件)

2020 実績報告書

研究成果
(3件)

すべて 2021 2020

すべて雑誌論文 (1件) (うち査読あり 1件、オープンアクセス 1件) 学会発表 (2件) (うち国際学会 1件)

[雑誌論文] Do We Need Zero Training Loss After Achieving Zero Training Error?2020
- 著者名/発表者名
  Takashi Ishida, Ikko Yamane, Tomoya Sakai, Gang Niu, Masashi Sugiyama
- 雑誌名
  
  Proceedings of Thirty-seventh International Conference on Machine Learning
  
  巻: 119 ページ: 4604-4614
- 関連する報告書
  2020 実績報告書
- 査読あり / オープンアクセス
[学会発表] Learning from Noisy Complementary Labels with Robust Loss Functions2021
- 著者名/発表者名
  Hiroki Ishiguro, Takashi Ishida, Masashi Sugiyama
- 学会等名
  第42回IBISML研究会
- 関連する報告書
  2020 実績報告書
[学会発表] Do We Need Zero Training Loss After Achieving Zero Training Error?2020
- 著者名/発表者名
  Takashi Ishida, Ikko Yamane, Tomoya Sakai, Gang Niu, Masashi Sugiyama
- 学会等名
  Thirty-seventh International Conference on Machine Learning (ICML2020)
- 関連する報告書
  2020 実績報告書
- 国際学会

主観的ラベル付きデータに基づく機械学習の研究

研究代表者

石田 隆 東京大学, 新領域創成科学研究科, 特別研究員(DC2)

2,300千円 (直接経費: 2,300千円)

報告書

研究成果

[雑誌論文] Do We Need Zero Training Loss After Achieving Zero Training Error?2020

著者名/発表者名

雑誌名

関連する報告書

[学会発表] Learning from Noisy Complementary Labels with Robust Loss Functions2021

著者名/発表者名

学会等名

関連する報告書

[学会発表] Do We Need Zero Training Loss After Achieving Zero Training Error?2020

著者名/発表者名

学会等名

関連する報告書

石田隆東京大学, 新領域創成科学研究科, 特別研究員(DC2)