2015 Fiscal Year Research-status Report
メトリックラーニングに基づく大規模実データの分析手法と理論評価に関する研究
Project/Area Number |
26750118
|
Research Institution | Waseda University |
Principal Investigator |
三川 健太 早稲田大学, 理工学術院, 助手 (40707733)
|
Project Period (FY) |
2014-04-01 – 2017-03-31
|
Keywords | メトリックラーニング / 正則化 / パターン認識 |
Outline of Annual Research Achievements |
本研究では,1)統計的学習理論,確率論の知見を援用したメトリックラーニング手法の汎化誤差の理論解析,2)凸最適化手法を用いた大規模データに対する効率的な計算手法の開発,3)メトリックラーニング手法の実問題への適用手法の開発を主な研究目的としており,平成27年度に関しては,このうち1), 2)について重点的に研究を行い,3件の論文採録,ならびに国際会議での発表を3件(全て査読有)行った.また,査読無の論文に関しても1件投稿,採録された. 具体的には,よりロバストな結果を得ることができるメトリックラーニング手法の提案と,それが保持する理論的性質の解析,大規模データを対象とした場合に発生する過学習の抑制のためのスパースなパラメータ推定方法の提案,導出を行った.加えて,得られた学習データのカテゴリ毎に計量行列を求め,それらを有効に用いる手法を提案することで,従来用いられているメトリックラーニング手法と比較し,高い分類性能を達成することができる手法を提案した.また,メトリックラーニング手法の応用的手法に関してもアプローチを行い,計量行列学習の性能向上に有効であるデータのみを適切に選択する方法,新規入力データの分類時に得られた計量行列を効果的に組み合わせることによりその性能を向上させる方法についても提案を行った. これらのうち,複数の計量行列を学習するための方法論は計算量を犠牲にしてしまうものの,高い性能を達成することができるため,計算量の低減方法を含めて今後も継続的に研究を進めていく予定である.
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
平成27年度に関しては,それまでに得ることのできた知見を基に,複数のメトリックラーニング手法の性能向上法の提案や,その理論的特性を解析するとともに,メトリックラーニング手法の応用に関する研究を行うことができた.これらにより,メトリックラーニング手法を用いることによる様々な知見を得ることができ,その活用は本研究課題の目的の一つとしている,3)メトリックラーニング手法の実問題への適用手法の開発,のための一助となると想定される. その一方で,平成27年度に計画していた実データの分析のためのメトリックラーニング手法の検討に関しては,データの提供が遅れてしまったため,大きな進捗を得ることができなかった.これまでに提案した各種メトリックラーニング手法は,汎用的な手法であるということができ,それらを直接実データへ適用したとしても,データの規模により計算量が増加してしまう,パラメータ数の増加に伴い過学習が生じてしまう,不要な特徴を含むことによる分析性能の低下が発生するなど,データ特有の問題が生じてしまう可能性がある.この点に関してはデータ受領後より継続して検討を行っており,得られたデータに適したメトリックラーニング手法の開発,検討を継続して行っていく予定である. また,得られた研究成果についても査読付き論文が3件,査読無の論文が1件,国際会議での発表が3件,国内での学会発表が4件と概ね順調であると言える.
|
Strategy for Future Research Activity |
平成28年度は,主に1)メトリックラーニング手法の性能向上に関する研究,2)実データへのメトリックラーニング手法の適用について検討を行っていく予定である.特に2)に関しては,既に述べている通り,取り扱うデータ毎にその特性,生じるであろう問題点が異なることが想定され,問題が発生するごとに適切にその内容を検討しながら分析を進めていく予定である. 1)に関しては,複数の計量行列を学習するための手法に着目し,分析性能を向上させるための方法を検討,提案する.また,複数の計量行列の学習を行った場合には,その計算量が増加してしまうため,例えばスパースな計量行列の導出を行うことなどによりその削減を図る.これらの内容に関しては,これまでに得られた知見を援用することで新たな提案手法を構築できる可能性があるため,継続して広く先行研究をレビューしていくものとする.また,得られた研究成果は国内,国外問わず積極的に発表すると共に,論文投稿に関しても行う. 他方,2)に関しては提供されたデータを詳細に分析し,適切な手法を構築していく必要があるため,多くの時間を要することが想定される.取り扱うデータは大規模となるため,分析手法の検討のみならず,計算機資源の制約を満たした手法の検討や,リーズナブルな時間での実行など,解決すべき問題が多くあるということができる.これらの点に関しても,積極的に学会報告等を行うことによって,有識者と議論する機会を増やし,さらなる研究内容の底上げを図る予定である.
|
Causes of Carryover |
本研究課題では,既に述べた通り,平成28年度に実データを対象とした分析を行う予定である.実データを対象とした分析では計算機資源に加え,データを保存するためのストレージなど,予定外の支出が生じる可能性がある.また,効率的な演算を行うため,商用ソフトウェアを使用する可能性もある.これらの状況を鑑み,上記件に関する研究資金の一部を確保するために全額を使い切ることをせず,次年度に繰り越すことを選択した.
|
Expenditure Plan for Carryover Budget |
本研究課題では,最終年度となる平成28年度に主に1)メトリックラーニング手法の性能向上に関する研究,2)実データへのメトリックラーニング手法の適用について検討を行っていく予定である.そのため,特に上記2)に関して,取り扱う実データの特性により,分析,データ保管のために追加購入が必要な機材が発生する可能性がある. さらに,本研究課題の最終年度となるため,これまでの研究で得られた研究成果をまとめ,学会や国際会議,論文投稿などによる成果発表を行う予定である.これらの参加費,投稿料などに関しても支出が増える可能性がある. したがって,これらにかかる経費を慎重に精査し,次年度使用額はこれらに充てるものとする.
|