2013 Fiscal Year Research-status Report
統計的学習理論と凸最適化アルゴリズムに基づく大規模データの自動分類法に関する研究
Project/Area Number |
25330045
|
Research Category |
Grant-in-Aid for Scientific Research (C)
|
Research Institution | Shonan Institute of Technology |
Principal Investigator |
小林 学 湘南工科大学, 工学部, 准教授 (80308204)
|
Co-Investigator(Kenkyū-buntansha) |
平澤 茂一 早稲田大学, 理工学術院, 名誉教授 (30147946)
|
Project Period (FY) |
2013-04-01 – 2016-03-31
|
Keywords | ビッグデータ / 統計的学習理論 / 凸最適化 / 故障診断 / 動的再構成回路 |
Research Abstract |
本年はまず既存の自動分類法に対する調査を行った.具体的な内容としては統計的手法であるフィッシャーの判別分析やナイーブベイズモデルなどの線形識別法,非線形モデルであるニューラルネットワーク,凸最適化を用いたカーネル法であるサポートベクターマシン(SVM),さらにカーネル法に対してベイズ統計学を駆使した関連ベクトルマシン(RVM),さらには集団学習法として脚光を浴びているアダブーストやランダムフォレストといった手法に加え,潜在クラスモデルなどについての現状及び応用分野の調査を行った.これらの調査した内容の一部は初学者を対象とした著書「入門 パターン認識と機械学習」としてコロナ社から刊行を行った.さらに上記手法それぞれの自動分類プログラムの構築を行い,大規模データへの応用のための準備を行った. またサーバ間で並列処理を行うときに,データに秘匿性を持たせつつお互いに協力して学習を行うプライバシー保護分散処理に関する論文を投稿し,採録されている.また上の最適化手法を用いた動的再構成回路の設計に関する研究について学会発表及び論文投稿を行い,採録が決定している.さらに大規模データ解析に向いている自動分類法の特徴を活かし,無ひずみ画像データ圧縮へ応用する手法に関して学会発表を行った. 一方大規模データへの自動分類の応用を目的として,ECサイトの実購買データを用いたコンペティションに参加を行い,上述の自動分類法を用いた解析を行った.具体的にはECサイトの購買情報に対して潜在クラスモデル,特に Flexible Mixture Model(FMM)と凸最適化手法の組み合わせを用いて購買者及び商品のグルーピングと,それぞれのグループが持つ有意な属性を推定する手法の開発を行った.
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
おおむね平成25年度の研究計画の通りに進捗している.自動分類法の調査及び検討の結果の一部として,著書を1件刊行した.また研究実績でも述べた内容について,査読付き学術論文誌掲載7件,査読付き国際会議2件,国内学会発表4件と順調であると考える.
|
Strategy for Future Research Activity |
研究を推進するための既存手法に関する知識とプログラミング環境は整ったため,今後は具体的な分散処理向き大規模自動分類アルゴリズムの検討を行う.今年度の研究において,複数のサーバ間で線形回帰問題に対する最小二乗階を求めるアルゴリズムの提案を行った.ここでは線形回帰及び最小二乗解という比較的単純なモデルを対象としたが,一般の自動分類法へとこれらの手法を拡張することを検討する. また数多くの分散処理システム中に故障が存在する場合に,そのような端末を高速に求めるために学習理論を応用することを検討する.このとき問題をランダムマルコフフィールドとして定式化することが可能であり,この数理モデルの下で積和アルゴリズムあるいはADMMなどの凸最適化アルゴリズムを用いた手法を提案する予定である.
|
Expenditure Plans for the Next FY Research Funding |
購入を予定していた実験用サーバ機及びクライアント機について,本年は湘南工科大学の実験設備を一時的に利用することが可能であったため,購入を見送ったことによる. 実験用サーバ機及びクライアント機について,大規模データの解析時にはスペックの高い機器が必要となるため,アルゴリズム及び解析プログラムを十分検討を行ってからそれに最適な機器を導入する予定である.次年度はサーバ間の並列計算用アルゴリズムの構築を目指しており,その進捗を見ながら購入を行う. また提案を行った内容については随時国内・海外において成果発表を行う予定でおり,そのための旅費として使用予定である.
|
Research Products
(15 results)