研究課題/領域番号 |
16K00044
|
研究機関 | 東京工業大学 |
研究代表者 |
金森 敬文 東京工業大学, 情報理工学院, 教授 (60334546)
|
研究期間 (年度) |
2016-04-01 – 2020-03-31
|
キーワード | 機械学習 / 変数選択 |
研究実績の概要 |
本研究の目的は,非凸損失による学習アルゴリズムを開発し,その統計的性質を理論的に保証するための数理的基盤を構築することである.とくに,データ解析において適切な非凸損失を設計するための方法論を体系化し,局所解であっても優れた統計的性質を持つ学習アルゴリズムを開発することを目指している.そのような観点から当該年度は,高次元データから複雑な低次元特徴量を抽出するための統計的方法について研究を進めた.複雑な低次元特徴量を捉えるためには,対数微分という確率密度に関連した量を推定する必要がある.しかしこの推定は一般に困難であり,理論と実用の両面から,精度改善やアルゴリズム開発が必要とされていた.この問題に対して,我々の研究ではカーネル法によるモデリングを提案した.これにより,従来法と比較して計算量面での高速化を達成した.さらに精度保証についても,提案アルゴリズムに対する統計的一致性を数理的に厳密に証明した.これにより,精度保証付きで複雑な低次元特徴量量を抽出することが可能になった.提案法では非凸最適化問題を解く必要がある.そこで不動点法に基づく手法を提案し,さまざまな空間データに対して効率適に動作することを確認した.これらの成果は論文として2018年度に出版された. また非凸学習に関連するテーマとして,当該年度はさらに非線形下回帰分析,密度比推定,密度稜線推定,クラスタリングなどさまざまな問題に対して,統一的な観点に基づく統計的変数選択法を提案し,理論的な有効性を証明した.重要な応用例として,医療データにおける共変量シフト下での判別分析を行った.密度比推定を用いて複数の病院での医学データ統合するとき,提案した変数選択法が有用であることを実証した.
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
当該年度は非凸損失を用いる低次元特徴抽出と変数選択に関する研究を推進した.特定の統計的問題に対する研究を越えて,統一的な視点からさまざまな機械学習アルゴリズムに対する理論的な考察を行った.低次元特徴量はクラスタリングやモード回帰分析などに応用されているが,これらの問題に対しても,提案法が有用であることが判明した.またカーネル法に対する変数選択の研究では,学習アルゴリズムの高速化と統計理論の構築について進展があった.カーネル関数の中でもベキ級数カーネルに着目したことで理論的に詳細な解析を行うことができた.また実データ解析においても,共同研究者らと考察を深めることで一定の有効性を示すことができた.とくに医学・生物学系の実データ解析において有効性を示すことができたため,さらなる応用への広がりについて研究を推進することを考えている.以上のように,当初の計画では非凸損失を用いるロバスト推定に対する学習アルゴリズムの開発に焦点を当てていたが,本研究計画を開始した時点では想定していなかった方向にも研究が進んでいる.一方,非正規化モデルによる統計的推論では,いくつかのアイデアの有用性について共同研究者らと研究を進めているが,2018年度の段階では論文の出版までは至っていない.こちらの研究課題については,これまでの進捗状況を鑑みると今後さらに進展すると考えている.全体的には,ロバスト学習への発展について当初想定した成果が得られ,さらに理論的,技術的に若干異なる方向にも,非凸損失・非凸アルゴリズムという観点から研究が進みつつある.このため,おおむね順調に進展していると自己評価する.
|
今後の研究の推進方策 |
本研究ではこれまで,非凸損失を用いることで学習アルゴリズムがどの程度ロバストになるかという問題について,理論構築を推進してきた.とくに,局所解に対する統計的性質の解明については,十分な進展があったと言える.以上よりロバスト学習アルゴリズムについては,非凸損失を用いる方法に対する有力な理論基盤を築きつつあるといえる.さらに当該年度は,高次元データから複雑な低次元特徴量を抽出する学習アルゴリズム,カーネル学習における変数選択法について研究を推進した.これらも非凸学習理論における重要な課題である.低次元特徴量の研究では,今後はモード回帰やクラスタリングなどへの応用や個別の問題に対する効率的アルゴリズムを展開することを想定している.予備的な考察では,本研究において開発した方法が非常に有効であることが確認されている.以上を踏まえ,モード回帰における出力の多次元化の課題などに取り組むことが重要と認識している. さらに最近の深層学習の進展を視野に入れ,非凸最適化の観点から敵対的損失の最適化とその統計的性質について追求することも重要な課題と考えている.これらは今後,転移学習などの研究の方向性と融合させて,さらなる展開を目指していくことを考えている.その際に必要となるのは,ビッグデータ時代に必要とされるスケーラビリティを確保するである.実世界データに適用するため,プログラムのパッケージ化などまで含めて研究を発展させていくための環境作りを積極的に行い,次世代データ解析の標準的手法を確立するための準備を進めることを予定している.
|
次年度使用額が生じた理由 |
H30年度は理論面での研究に進捗があり,計算サーバを新規に購入することを延期したため.H31年度の使用計画としては,H30年度に購入予定だった計算サーバに当てる予定である.
|