研究課題
本研究課題では、現実的な制約のもとで不完全な教師付きデータしか得られないような状況下で、機械学習の適用可能性をより広げることを目的としている。該当年度では、次の項目について研究を行った。1.自己教師のみしか得られない場合における表現学習:データ科学の大規模化に従い、教師情報を全てのデータに逐一付与することが非現実なケースは少なくない。そのような場合、教師なしのデータから教師情報を何らかの手段で生成し、それを元にしてデータの表現を学習する自己教師付き表現学習が近年盛んに研究されているが、自己教師付き学習は本質的には教師なし学習であるゆえに「正解データ」がなく、学習理論的な性能保証が難しかった。本研究では下流タスクとして教師付き分類を想定したときに、対照学習と呼ばれるある種の自己教師付き表現学習で学習したデータ表現が線形分類性能を向上させることを理論的に示した。ここで示した理論評価は単純な凸解析の結果(Jensenの不等式とFenchel-Youngの不等式)に依拠しており、単純なアプローチにもかかわらず既存の理論における性能評価を指数的に向上させることに成功し、結果としてより厳密に下流タスクの性能を事前に知ることができるようになった。最終的に、対照学習で長年議論の的となっていた「負例の数に最適な数はあるか?」という問いに対して、「負例は多ければ多いほど下流タスク性能の分散は小さくなるが、負例が少ないときに性能が出ないわけではない」という結論を得た。
令和3年度が最終年度であるため、記入しない。
すべて 2021
すべて 雑誌論文 (1件) (うち国際共著 1件、 査読あり 1件) 学会発表 (1件)
Proceedings of the European Conference on Machine Learning and Principles and Practice of Knowledge Discovery in Databases (ECMLPKDD2021)
巻: 12976 ページ: 233-249