研究課題/領域番号 |
19J21094
|
研究種目 |
特別研究員奨励費
|
配分区分 | 補助金 |
応募区分 | 国内 |
審査区分 |
小区分60030:統計科学関連
|
研究機関 | 東京大学 |
研究代表者 |
包 含 東京大学, 情報理工学系研究科, 特別研究員(DC1)
|
研究期間 (年度) |
2019-04-25 – 2022-03-31
|
研究課題ステータス |
完了 (2021年度)
|
配分額 *注記 |
3,100千円 (直接経費: 3,100千円)
2021年度: 1,000千円 (直接経費: 1,000千円)
2020年度: 1,000千円 (直接経費: 1,000千円)
2019年度: 1,100千円 (直接経費: 1,100千円)
|
キーワード | 機械学習 / 教師付き学習 / 統計的学習理論 / 半教師付き学習 |
研究開始時の研究の概要 |
本研究は、現実世界におけるプライバシーやデータ取得のコストなどの制約により不完全な教師データしか得られない状況下における統計的分類、いわゆる弱教師付き分類の適用可能範囲を広げるものである。従来は半教師付き分類やPU分類(正例とラベルなし例のみが手に入る分類問題)において研究が進められてきたが、これを教師なし分類やストリームデータの分類へと拡張する。
|
研究実績の概要 |
本研究課題では、現実的な制約のもとで不完全な教師付きデータしか得られないような状況下で、機械学習の適用可能性をより広げることを目的としている。該当年度では、次の項目について研究を行った。 1.自己教師のみしか得られない場合における表現学習:データ科学の大規模化に従い、教師情報を全てのデータに逐一付与することが非現実なケースは少なくない。そのような場合、教師なしのデータから教師情報を何らかの手段で生成し、それを元にしてデータの表現を学習する自己教師付き表現学習が近年盛んに研究されているが、自己教師付き学習は本質的には教師なし学習であるゆえに「正解データ」がなく、学習理論的な性能保証が難しかった。本研究では下流タスクとして教師付き分類を想定したときに、対照学習と呼ばれるある種の自己教師付き表現学習で学習したデータ表現が線形分類性能を向上させることを理論的に示した。ここで示した理論評価は単純な凸解析の結果(Jensenの不等式とFenchel-Youngの不等式)に依拠しており、単純なアプローチにもかかわらず既存の理論における性能評価を指数的に向上させることに成功し、結果としてより厳密に下流タスクの性能を事前に知ることができるようになった。最終的に、対照学習で長年議論の的となっていた「負例の数に最適な数はあるか?」という問いに対して、「負例は多ければ多いほど下流タスク性能の分散は小さくなるが、負例が少ないときに性能が出ないわけではない」という結論を得た。
|
現在までの達成度 (段落) |
令和3年度が最終年度であるため、記入しない。
|
今後の研究の推進方策 |
令和3年度が最終年度であるため、記入しない。
|