Unified approach for data sampling problems based on online prediction theory
Project/Area Number |
21K12032
|
Research Category |
Grant-in-Aid for Scientific Research (C)
|
Allocation Type | Multi-year Fund |
Section | 一般 |
Review Section |
Basic Section 61030:Intelligent informatics-related
|
Research Institution | Kyushu University |
Principal Investigator |
末廣 大貴 九州大学, システム情報科学研究院, 助教 (20786967)
|
Project Period (FY) |
2021-04-01 – 2024-03-31
|
Project Status |
Granted (Fiscal Year 2022)
|
Budget Amount *help |
¥4,290,000 (Direct Cost: ¥3,300,000、Indirect Cost: ¥990,000)
Fiscal Year 2023: ¥1,430,000 (Direct Cost: ¥1,100,000、Indirect Cost: ¥330,000)
Fiscal Year 2022: ¥1,430,000 (Direct Cost: ¥1,100,000、Indirect Cost: ¥330,000)
Fiscal Year 2021: ¥1,430,000 (Direct Cost: ¥1,100,000、Indirect Cost: ¥330,000)
|
Keywords | データサンプリング / オンライン予測 / 組み合わせ最適化 / ノイズラベル / 機械学習 / ノイズデータ |
Outline of Research at the Start |
本研究では,機械学習分野におけるデータサンプリング問題に対し,統合的な定式化と理論解析の枠組みを与えることを目指す.データサンプリングは,全てのサンプルを学習に用いるのではなく,可能な限り「望ましいデータ」のみをサンプリングするタスクのことで, 多くのドメインで幅広く考えられているタスクである.従来は,ドメイン,タスクの細かい特性に応じたアドホックな定式化や手法が多く,汎用性や理論解析に関する議論が欠如している.本研究では, ドメイン,タスク依存の現状を打破するため,データサンプリング問題について(1)統合的な枠組みの開発,(2)理論性能保証,(3)実応用の開拓を行う.
|
Outline of Annual Research Achievements |
オンライン予測理論に基づくデータサンプリング問題の枠組みを用い,様々な学習タスクへの適用を行った. 1. ラベル比率からの学習問題に対する疑似ラベルに基づく方法を構築した.オンライン予測理論に基づくデータサンプリングにより,効率的かつ高精度な疑似ラベルを担保しながらの学習を可能にした.実データを用いた実験でも,既存手法に比べ高い性能を示した.査読付き国際会議に投稿し受理された. 2. 研究計画でメインターゲットとしていた,ノイズラベルデータに対するノイズデータを除去しながら学習する手法を構築した.オンライン予測理論に基づくデータサンプリングにより,従来より2倍程度学習を高速化しつつ,高精度なノイズデータ除去と,ラベル予測が可能となった.実データを用いた実験においても,従来手法より高い精度でノイズデータの除去とラベル予測を行えていることが確認できた.現在学術論文誌に投稿中である. これらの結果によって,研究計画でも示した「統合的な枠組み」「オンライン予測理論に基づく理論性能の保証」および「実応用の開拓」を明らかにした.また,研究計画でメインターゲットとしていたノイズラベルデータに対する適用だけではなく,ラベル比率からの学習問題にも適用を可能とし,提案した枠組みの汎用性を示した.1. および 2. で扱った問題に対してオンライン予測理論に基づくデータサンプリングを導入したのは世界で初であり,各問題における既存手法とは一線を画す独創的なアプローチである.
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
様々な学習タスクに適用し,理論,応用の両面での解析結果から,オンライン予測理論に基づくデータサンプリングが汎用的な枠組みとして有用であることが示せている.
|
Strategy for Future Research Activity |
現状,CIFARなどの一般的な実データに対する有用性は示せているものの,医療データなどの複雑なドメイン知識を要するデータに対しての有用性は示せていない.今後は問題設定と手法のさらなる拡張を図る.また,既存の問題への適用だけではなく,新たな学習タスクの創出にも取り組んでいく.
|
Report
(2 results)
Research Products
(2 results)