研究課題/領域番号 |
25330271
|
研究種目 |
基盤研究(C)
|
研究機関 | 豊田工業大学 |
研究代表者 |
佐々木 裕 豊田工業大学, 工学(系)研究科(研究院), 教授 (60395019)
|
研究期間 (年度) |
2013-04-01 – 2016-03-31
|
キーワード | 階層的分類 / Pegasos / LSHTC / ビッグデータ / 機械学習 / SVM |
研究概要 |
本研究では,「機械学習におけるBig Data」(従来の機械学習技術では取り使えない規模の巨大データ)を効率的に扱うことを目指している.研究対象データとしては,Wikipedia から抽出された2種類のデータセットを扱う.Wikipedia Mediumデータセットは,約 45 万データを訓練データとして,約 5 万ノードからなるカテゴリの階層に対して,約 8 万件のテストデータを分類するというテストセットである.Wikipedia Large データセットは Medium に対して約 10 倍のサイズのデータであり,数百万データを訓練データとして,数十万ノードからなる構造的クラスへの分類を学習すること対象としている. 25 年度は,Wikipedia Largeデータセットを効率的に扱うための準備として,Wikipedia Medium データセットに対する階層的分類技術のメモリ効率,実行効率を大幅に改善することを目標としていた. 研究の結果,SGD SVM の改良版であるPegasos (Primal Estimated sub-GrAdient SOlver for SVM) を組み込んだ階層的分類システムをC++により実装することで,効率的な学習が可能であることを明らかにした.Pegasosはオンライン学習型のSVMであり,数万データに対する線形2値分類学習速度が数十ミリ秒と非常に高速である.また,従来は,SVMツールを外部コマンドとして実行していたため,ファイル入出力時間がかかっていたが,すべての学習・分類プロセスをC++により統合システムとして実装することで,大幅な高速化を実現した. その結果,従来,約16時間かかっていたWikipedia Mediumデータセットの学習時間を,分類精度を落とすことなく約10分の1にでき,次年度に向けての見通しが得られた.
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
25 年度は,Wikipedia Largeデータセットを効率的に扱うための準備として, Wikipedia Medium データセットに対する階層的分類速度を約10分の1にすることを目標としていた. 研究の結果,SGD SVM の改良版であるPegasos (Primal Estimated sub-GrAdient SOlver for SVM) を組み込んだ階層的分類システムをC++により実装することで,効率的な学習が可能であることを明らかにした.Pegasosはオンライン学習型のSVMであり,数万データに対する2値分類学習速度が数十ミリ秒と非常に高速である.また,従来は,SVMツールを外部コマンドとして実行していたため,ファイル入出力時間がかかっていたが,すべての階層的分類学習・テストプロセスをC++により,統合システムとして実装することで,大幅な高速化を実現した. その結果,従来約16時間かかっていたWikipedia Mediumデータセットの約65,000モデルの学習時間を,分類精度を落とすことなく約10分の1にすることを可能にした.テストデータの分類時間に関しても,従来3時間程度かかっていたが,これを約10分に短縮することが可能となった. また,分類精度の面でも,高速化のために性能を犠牲にする必要がないことを確認した.大域的な分類誤りの補正を行うことで,従来、発表されているWikipedia Mediumデータを対象としたシステムの中で最も精度のよいAccuracy 44.23%を実現した.(これまで最も性能の高いシステムのAccuracyは43.82%であった.)
|
今後の研究の推進方策 |
26 年度は,25年度においてWikipedia Mediumデータセットに対して得られた成果を,Wikipedia Large データセットに適用する.Wikipedia Largeデータセットは,階層の構造が単純な階層ではなく,循環を許す有向グラフ構造を持つため,単純に入力をLargeデータに置き換えるだけではなく,システム全体を修正する必要がある.25 年度に高速化された手法を実際にLargeデータにおいて評価し,パラメータのチューニングを行う.もし,処理速度や必要メモリサイズの制約により十分な性能が得られない場合には,さらに手法自体の効率化の研究も行う. たとえば,学習時に負例をサンプリングにより性能に影響をほとんど与えずに縮小することや階層構造の一部を簡略化し,効率を上げる等の研究を優先的に行う.Large データを実用時間内で処理できなかった場合は,高速化に向けてシステム全体を超並列処理にあった形に構成する. Largeデータに基づきすべての階層的分類を学習する時間を72時間程度に抑えることを目指す.分類時間も全テストデータの分類を3時間程度に抑える.高速化のためのアプローチとしては,高速な機械学習アルゴリズムの改良およびGPGPU などの並列処理手法を採用する.これまで,我々の研究において,SVM 分類判定の計算のGPGPU 化の研究はすでに行なわれている.線形カーネルによる分類アルゴリズムについては,40 倍程度の分類性能の向上が可能であることが判明しているため,アルゴリズムの改良による高速化が十分でなければ,GPGPU による高速化を加える. GPGPU による実装に関しては,研究協力者であるToyota Technological Institute at Chicago のDr. Srebroらの支援も受ける.
|
次年度の研究費の使用計画 |
国際会議への参加を見送ったため,旅費として予定していた支出等を一部計算サーバー購入に充てたが,余剰金が出たため. 初年度に関連した研究成果を発表するために,26年度以降に旅費を積極的に利用していく.
|