データストリーム環境におけるオンライン学習アルゴリズムの研究

Research Project

Project/Area Number	11J03668
Research Category	Grant-in-Aid for JSPS Fellows
Allocation Type	Single-year Grants
Section	国内
Research Field	Intelligent informatics
Research Institution	The University of Tokyo
Principal Investigator	松島慎東京大学, 大学院・情報理工学系研究科, 特別研究員(DC2)
Project Period (FY)	2011 – 2012
Project Status	Completed (Fiscal Year 2012)
Budget Amount *help	¥1,300,000 (Direct Cost: ¥1,300,000) Fiscal Year 2012: ¥600,000 (Direct Cost: ¥600,000) Fiscal Year 2011: ¥700,000 (Direct Cost: ¥700,000)
Keywords	大規模データ / 機械学習 / 最適化法 / アルゴリズム / サポートベクターマシン(SVM) / 双対座標勾配法 / 高速化
Research Abstract	実用的な機械学習をRAM容量を超える数10GB単位のデータに対して適用する場合はメモリスワップにより効率が著しく低下する問題があった。そこで我々は特にサポートベクターマシン(SVM)の機械学習において、現在汎用的に利用可能なマルチコアプロセッサおよびメモリ階層構造の特長を利用し、RAM容量を超えるデータを用いたSVM学習を高速に行うアルゴリズム、StreamSVMを提案した。提案アルゴリズムはDual Cached Loopsという提案スキームの上で動作する。Dual Cached Loopsは2つのスレッドが非同期的に動作する。Reading threadとよばれるスレッドはハードディスク(HDD)に連続アクセスし、繰り返しデータをHDDからRAMへ読み込む。一方のTraining ThreadとよばれるスレッドはRAMに転送されたデータにのみアクセスするため、HDDからの読み込みのオーバーヘッドを被ることなく、かつ途中で停止することなくデータアクセスが可能である。RAMへのアクセスはHDDからの読み込みに比べ高速であるため、Readingthreadが一度データを読み込む間に何回もデータにアクセスすることが可能であり、高速なパラメータ更新が可能となる。評価実験により、提案手法は既存手法に比べて非常に高速に学習が可能であることを確認した。さらに、この提案スキームを用いて他の機械学習の問題であるロジスティック回帰やサポートベクター回帰に対するアルゴリズムを開発した。また、複数のモデルを同時に学習する手法も開発することができた。これによってストリームデータをHDDに記憶させながら、それらを無駄にすることなく、またオンライン学習アルゴリズムの効率の良さを保ちながらバッチ学習を行うことができる。このアルゴリズムおよび方法論によって、当初の目的であったデータストリーム環境における制限を克服しながら今までの方法と匹敵する高い精度を達成することが可能になったと言える。
Current Status of Research Progress	Current Status of Research Progress 2: Research has progressed on the whole more than it was originally planned. Reason 当初のアプローチとは違うアプローチであるが、開発されたStreamSVMアルゴリズムおよびDual Cached Loopsを用いた他手法によって、当初の目的であったデータストリーム環境における制限を克服しながら今までの方法と匹敵する高い精度を達成することが可能になった。そのため、研究の目的はおおむね順調に達成されたといえる。