識別マージンの強い分布的統制による頑健化と効率化の研究

研究課題

研究課題/領域番号	18H06477
研究種目	研究活動スタート支援
配分区分	補助金
審査区分	1002:人間情報学、応用情報学およびその関連分野
研究機関	大阪大学
研究代表者	HOLLAND Matthew・James 大阪大学, データビリティフロンティア機構, 特任助教(常勤) (00810227)
研究期間 (年度)	2018-08-24 – 2020-03-31
研究課題ステータス	完了 (2018年度)
配分額 *注記	2,860千円 (直接経費: 2,200千円、間接経費: 660千円) 2018年度: 1,560千円 (直接経費: 1,200千円、間接経費: 360千円)
キーワード	統計的学習理論 / 機械学習 / 確率的最適化
研究実績の概要	本研究では、機械学習のもっとも基礎的な学習課題である二値識別に着目し、従来の手法の新たな展開を探るべく、学習アルゴリズムのフィードバック方法を抜本的に改新することを検討してきた。本研究の本質的な特徴は、識別課題で重要な役割を果たす「マージン」という指標の平均にとどまらず、その確率分布自体を最適化の対象としてとらえていることが挙げられる。平成30年度の成果として、最初の取り口として、マージン分布の裾に引っ張られにくいパラメータを新たに特徴づけて、そのパラメータをデータから推定し、それを最大化しようとする新しい学習アルゴリズムの理論解析および入念な数値実験を行った。そのパラメータの新たな定義は多項式の形をとるトランケーション関数によって決まるのだが、そこには利点がいくつもある。外れ値の影響が受けにくく、統計的なロバスト性が長けている。また、この関数を導入したことによって、新たに提案している目的関数と二値識別率の関係を明示できるようになる。これは数学的な理論にとどまらず、多項式の形を利用すれば、提案関数と二値識別率の乖離がどの程度大きく成りうるか数値的に検証することも可能になる。このやや煩雑な計算を行うプログラムを副産物としてインターネット上で公開している。数値実験では、分布自体を制御する自由度がまだ低いが、種々のデータセットにおいてベンチマーク手法と同程度以上の性能を記録しており、基本的な原理は予想通りであった。特に、提案しているスケーリング係数をデータ駆動的に決めることで、コストのかかる正則化の作業を省くことができることも判明し、実用性のポテンシャルが高いと見ている。初期的ながら、理論とこの研究成果は統計的機械学習のトップカンファレンスの一つであるAISTATS 2019に採択された。
現在までの達成度 (段落)	平成30年度が最終年度であるため、記入しない。
今後の研究の推進方策	平成30年度が最終年度であるため、記入しない。