研究課題/領域番号 |
21K12032
|
研究種目 |
基盤研究(C)
|
配分区分 | 基金 |
応募区分 | 一般 |
審査区分 |
小区分61030:知能情報学関連
|
研究機関 | 九州大学 |
研究代表者 |
末廣 大貴 九州大学, システム情報科学研究院, 助教 (20786967)
|
研究期間 (年度) |
2021-04-01 – 2024-03-31
|
研究課題ステータス |
交付 (2022年度)
|
配分額 *注記 |
4,290千円 (直接経費: 3,300千円、間接経費: 990千円)
2023年度: 1,430千円 (直接経費: 1,100千円、間接経費: 330千円)
2022年度: 1,430千円 (直接経費: 1,100千円、間接経費: 330千円)
2021年度: 1,430千円 (直接経費: 1,100千円、間接経費: 330千円)
|
キーワード | データサンプリング / オンライン予測 / 組み合わせ最適化 / ノイズラベル / 機械学習 / ノイズデータ |
研究開始時の研究の概要 |
本研究では,機械学習分野におけるデータサンプリング問題に対し,統合的な定式化と理論解析の枠組みを与えることを目指す.データサンプリングは,全てのサンプルを学習に用いるのではなく,可能な限り「望ましいデータ」のみをサンプリングするタスクのことで, 多くのドメインで幅広く考えられているタスクである.従来は,ドメイン,タスクの細かい特性に応じたアドホックな定式化や手法が多く,汎用性や理論解析に関する議論が欠如している.本研究では, ドメイン,タスク依存の現状を打破するため,データサンプリング問題について(1)統合的な枠組みの開発,(2)理論性能保証,(3)実応用の開拓を行う.
|
研究実績の概要 |
オンライン予測理論に基づくデータサンプリング問題の枠組みを用い,様々な学習タスクへの適用を行った. 1. ラベル比率からの学習問題に対する疑似ラベルに基づく方法を構築した.オンライン予測理論に基づくデータサンプリングにより,効率的かつ高精度な疑似ラベルを担保しながらの学習を可能にした.実データを用いた実験でも,既存手法に比べ高い性能を示した.査読付き国際会議に投稿し受理された. 2. 研究計画でメインターゲットとしていた,ノイズラベルデータに対するノイズデータを除去しながら学習する手法を構築した.オンライン予測理論に基づくデータサンプリングにより,従来より2倍程度学習を高速化しつつ,高精度なノイズデータ除去と,ラベル予測が可能となった.実データを用いた実験においても,従来手法より高い精度でノイズデータの除去とラベル予測を行えていることが確認できた.現在学術論文誌に投稿中である. これらの結果によって,研究計画でも示した「統合的な枠組み」「オンライン予測理論に基づく理論性能の保証」および「実応用の開拓」を明らかにした.また,研究計画でメインターゲットとしていたノイズラベルデータに対する適用だけではなく,ラベル比率からの学習問題にも適用を可能とし,提案した枠組みの汎用性を示した.1. および 2. で扱った問題に対してオンライン予測理論に基づくデータサンプリングを導入したのは世界で初であり,各問題における既存手法とは一線を画す独創的なアプローチである.
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
様々な学習タスクに適用し,理論,応用の両面での解析結果から,オンライン予測理論に基づくデータサンプリングが汎用的な枠組みとして有用であることが示せている.
|
今後の研究の推進方策 |
現状,CIFARなどの一般的な実データに対する有用性は示せているものの,医療データなどの複雑なドメイン知識を要するデータに対しての有用性は示せていない.今後は問題設定と手法のさらなる拡張を図る.また,既存の問題への適用だけではなく,新たな学習タスクの創出にも取り組んでいく.
|