2017 Fiscal Year Research-status Report
非凸損失による機械学習アルゴリズムの数理と実用化に関する研究
Project/Area Number |
16K00044
|
Research Institution | Tokyo Institute of Technology |
Principal Investigator |
金森 敬文 東京工業大学, 情報理工学院, 教授 (60334546)
|
Project Period (FY) |
2016-04-01 – 2019-03-31
|
Keywords | 機械学習 / ロバスト統計 |
Outline of Annual Research Achievements |
本研究の目的は,非凸な損失に基づく実用的な学習アルゴリズムを開発し,その統計的性質を理論的に保証するための数理的基盤を構築することである.適切な非凸損失を用いることで,大域解は優れた統計的性質を持つことが確認されている.しかし実際に大域解を求めることは困難であり,理論と現実の間にギャップが存在する.本研究では,データ解析において適切な非凸損失を設計するための方法論を体系化し,局所解であっても優れた統計的性質を持つ学習アルゴリズムを開発する.とくに今年度は,2値判別によく用いられているサポートベクトルマシンの学習アルゴリズムを拡張し,予測性能を保持したまま,外れ値に対してロバストな性質を持つような方法を提案し,論文として出版した.本研究では,学習アルゴリズムとしてDCA (Difference of Convex functions Algorithm) とよばれる方法を用いた.これにより,ロバスト性を保証するための非凸損失関数の局所解を効率的に探索することが可能になる.新しく導入した不確実性集合によるロバスト判別法の定式化により,既存のロバストサポートベクトルマシンと比較して,汎化性能が向上することが確認された.さらにこの研究成果を,同様の非凸損失関数を持つさまざまな学習アルゴリズムの解析に応用した.これに伴い,学習アルゴリズムのロバスト性を測る尺度のひとつであるブレイクダウン・ポイントの精密な値を計算するための理論的な方法を新しく提案した.非凸損失に基づく学習アルゴリズムに対して,学習の結果得られる局所解の統計的性質を保証するための理論的な枠組を与えた.これに加えて,離散的なデータに対する統計的解析法を提案した.これは,データのグラフ構造を考慮して統計的推論を行う方法であり,非凸最適化を局所的な計算に置き換えることで効率的に推定量を計算することができることを示した.
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
今年度は非凸損失を用いるロバスト・サポートベクトルマシンの研究を推進し,2値判別だけでなく回帰分析,1クラス分類などさまざまな統計的諸問題に拡張し,局所解に対して理論的な保証を与えるという成果を得た.ロバスト・サポートベクトルマシンの統計的性質を理論的に厳密に調べる研究については,当初の計画通りに進行している.現在までの研究活動の結果,非凸損失を用いる方法に対する有力なアプローチとしての基盤を築いたと言える.また,近傍関係がグラフ構造によって記述される画像のようなデータに対して,統計的距離として知られているダイバージェンスを用いて,統一的な統計的推定の方法論を確立した.離散データにおけるダイバージェンスを局所計算により求めるという既存研究を発展させ,多様な近傍構造を扱うことを可能にする理論的な枠組を与えた.とくにアルファ・ダイバージェンスとよばれるダイバージェンス・クラスを用いる方法は,新しく提案した経験的局所化という手法と組み合わせることで,効率的な計算アルゴリズムを導出できることが判明した.さらに,当初の予定よりも研究が進捗し,非凸ダイバージェンス・クラスが凸性を満たすときの統計的性質に関する結果を得た.この問題においても非凸損失の計算が必要になるため,局所解の統計的性質を調べるという課題が新たに現れた.さらに,今年度は非凸関数のオンライン最適化においても進展があり,論文として発表している.この研究では,2点間の目的関数値の大小関係のみが得られるという設定において,準凸関数に対する最適化法を与えたものであり,微分を用いない最適化手法よりもさらに情報が少ない場合でも,非凸関数である準凸関数の最適解を得ることが可能であることを示して点において意義があると言える.
|
Strategy for Future Research Activity |
本研究ではこれまで,非凸損失を用いることで学習アルゴリズムがどの程度ロバストになるか,定量的かつ可能な限り厳密に理論的な追求をしてきた.とくに,局所解に対する統計的性質の解明については,十分な進展があったと言える.以上のことから,非凸損失を用いる方法に対する有力な理論基盤を築きつつあると言える.今後は,大規模データに適用するために,効率的な最適化手法を開発することが重要と考える.損失関数が複雑になると,標準的な最適化法を適用するだけでは十分なスケーラビリティーが得られないことが予想される.このため,ペア比較オラクルの利用なども視野に入れ,他の研究成果との融合的発展を目指す.他方,ダイバージェンスに基づく統計手法を追求する過程で,離散データに対するアルファ・ダイバージェンスの有効性が確認された.この方向の研究を,非凸最適化の観点から更に進める必要があると考える.すなわち,機械学習におけるダイバージェンス推定の応用可能性について更に追求し,離散データ解析のための有力な方法論として確立するために研究を進めることが重要である.本研究課題の進捗状況は,全般的に順調に進んでいると言える.とくに,理論面については当初の予定に沿って研究成果が得られつつある.これらの結果を実世界データに適用するため,プログラムのパッケージ化などまで含めて研究を発展させていくための環境作りを積極的に行い,次世代データ解析の標準的手法とするための準備を進めていくことを予定している.
|
Causes of Carryover |
昨年度は名古屋大学から東京工業大学に異動し,その作業のため研究費の使用について円滑に進まないこともあった.これに伴ない,新しく計算機を購入して進める予定のアルゴリズム実装などが,次年度に持ち越されることになった.来年度は,計算機によるアルゴリズム実装の研究を,当初の予定より多くの研究時間を投入して進めることを予定している.
|