Project/Area Number |
20J11937
|
Research Category |
Grant-in-Aid for JSPS Fellows
|
Allocation Type | Single-year Grants |
Section | 国内 |
Review Section |
Basic Section 60010:Theory of informatics-related
|
Research Institution | The University of Tokyo |
Principal Investigator |
石田 隆 東京大学, 新領域創成科学研究科, 特別研究員(DC2)
|
Project Period (FY) |
2020-04-24 – 2022-03-31
|
Project Status |
Completed (Fiscal Year 2020)
|
Budget Amount *help |
¥2,300,000 (Direct Cost: ¥2,300,000)
Fiscal Year 2020: ¥1,200,000 (Direct Cost: ¥1,200,000)
|
Keywords | 機械学習 |
Outline of Research at the Start |
データの正確なクラスラベルが収集しやすい分野においては、機械学習の分類アルゴリズムを用いることで良い精度を得ることができる。クラスラベルが客観的に評価できる問題であれば正確なクラスラベルは収集しやすいものの、「印象が良いか悪いか」や「料理が美味しいかどうか」などの場合は、客観的な定義を与えることができない。本研究の目的は正確なクラスラベルの収集が困難な場合、特に主観的ラベルが収集されてしまう場合を対象とした機械学習の研究を行うことである。異なる主観性を持つラベル付け要員から収集されたデータを対象とした分類アルゴリズムを提案することを目指す。
|
Outline of Annual Research Achievements |
ラベラーによってデータに対する感じ方が異なり、結果としてラベル付けが異なるという主観性が絡む問題を研究の対象とし、2つのアプローチによる研究を行った。
1つ目のアプローチとして、主観的ラベルの問題を、データが与えられたときのクラスの事後確率が1未満である問題(もしくは背後にあるベイズ誤差が正の値になる問題)と捉えた。表現力の高いモデルを用いた場合には、学習中に訓練損失は容易にゼロ付近にまで下がってしまうが、ベイズ誤差が正であるならば、訓練損失がゼロ付近まで下がってしまうことは過学習がすでに起きていることを示唆している。この問題に対して、ある程度訓練損失が小さくなれば、それ以上下がらないようなアルゴリズムを設計した。様々なベンチマークデータセットを用いた実験により、提案手法により過学習が回避され、汎化性能が向上することを確認し、理論的な性質についても解析を行った。本研究は機械学習のトップ国際会議の一つであるICML 2020に採択され、電子情報通信学会第23回情報論的学習理論ワークショップにて優秀発表賞ファイナリストとして選ばれた。
2つ目のアプローチとして、主観的ラベルの問題を、ラベラーのラベル付けの誤差の問題として捉えた。通常の教師あり学習では、訓練データのラベルにノイズが加わる問題は近年活発に研究されてきたが、ラベルノイズは補ラベル学習の訓練データにも生じることがある。補ラベル学習というのは、各データに対してデータが所属しないクラスが一つ与えられる問題設定で、正解ラベルが一つも与えられない中で正解ラベルを予測する分類器の学習を試みる問題である。学習アルゴリズムが補ラベルに対する雑音の影響を受けないような損失関数の条件を導出し、実験によりその条件を満たす損失関数が良い分類性能を示すことがわかった。本研究は国内学会の第42回IBISML研究会で発表した。
|
Research Progress Status |
翌年度、交付申請を辞退するため、記入しない。
|
Strategy for Future Research Activity |
翌年度、交付申請を辞退するため、記入しない。
|