研究課題/領域番号 |
21K12032
|
研究種目 |
基盤研究(C)
|
配分区分 | 基金 |
応募区分 | 一般 |
審査区分 |
小区分61030:知能情報学関連
|
研究機関 | 横浜市立大学 (2023) 九州大学 (2021-2022) |
研究代表者 |
末廣 大貴 横浜市立大学, データサイエンス学部, 准教授 (20786967)
|
研究期間 (年度) |
2021-04-01 – 2024-03-31
|
研究課題ステータス |
完了 (2023年度)
|
配分額 *注記 |
4,290千円 (直接経費: 3,300千円、間接経費: 990千円)
2023年度: 1,430千円 (直接経費: 1,100千円、間接経費: 330千円)
2022年度: 1,430千円 (直接経費: 1,100千円、間接経費: 330千円)
2021年度: 1,430千円 (直接経費: 1,100千円、間接経費: 330千円)
|
キーワード | データサンプリング / オンライン予測 / ノイズあり機械学習 / 機械学習 / 組み合わせ最適化 / ノイズラベル / ノイズデータ |
研究開始時の研究の概要 |
本研究では,機械学習分野におけるデータサンプリング問題に対し,統合的な定式化と理論解析の枠組みを与えることを目指す.データサンプリングは,全てのサンプルを学習に用いるのではなく,可能な限り「望ましいデータ」のみをサンプリングするタスクのことで, 多くのドメインで幅広く考えられているタスクである.従来は,ドメイン,タスクの細かい特性に応じたアドホックな定式化や手法が多く,汎用性や理論解析に関する議論が欠如している.本研究では, ドメイン,タスク依存の現状を打破するため,データサンプリング問題について(1)統合的な枠組みの開発,(2)理論性能保証,(3)実応用の開拓を行う.
|
研究成果の概要 |
機械学習における様々なデータサンプリング問題に対し,オンライン予測理論に基づく統合的定式化と理論解析を行った.具体的には,Lerning from Label Proportions と呼ばれる学習問題における疑似ラベル選択,ノイズラベルあり学習問題におけるノイズデータ回避を考え,学習器の挙動に応じて適応的にデータをサンプリングする統合的な枠組みを構築した.いずれの問題においても理論的に適切なサンプリングが行えることを証明し,かつ実験的にも最新手法を超える性能を達成することを示した.
|
研究成果の学術的意義や社会的意義 |
データから学習を行う機械学習は人工知能の中核をなす技術である.一般に,データに付与される「正解」は誤り(ノイズ)が含まれていたり,全てのデータに付与されていなかったり,不完全なものであることが多い.このようなデータから適切な学習を行うためには,データ集合の中から適切な情報だけを取り出すサンプリングが重要な役割を担う.しかし,サンプリングはデータの性質やタスクに応じたアドホックな定式化や手法が多く,汎用性や理論解析に関する議論が欠如していた.本研究ではデータやタスク依存の現状を打破する統合的な枠組みと理論性能保証の指針を与え,サンプリング技術ひいては機械学習技術の発展に大きく寄与するものである.
|