• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to previous page

データストリーム環境におけるオンライン学習アルゴリズムの研究

Research Project

Project/Area Number 11J03668
Research Category

Grant-in-Aid for JSPS Fellows

Allocation TypeSingle-year Grants
Section国内
Research Field Intelligent informatics
Research InstitutionThe University of Tokyo

Principal Investigator

松島 慎  東京大学, 大学院・情報理工学系研究科, 特別研究員(DC2)

Project Period (FY) 2011 – 2012
Project Status Completed (Fiscal Year 2012)
Budget Amount *help
¥1,300,000 (Direct Cost: ¥1,300,000)
Fiscal Year 2012: ¥600,000 (Direct Cost: ¥600,000)
Fiscal Year 2011: ¥700,000 (Direct Cost: ¥700,000)
Keywords大規模データ / 機械学習 / 最適化法 / アルゴリズム / サポートベクターマシン(SVM) / 双対座標勾配法 / 高速化
Research Abstract

実用的な機械学習をRAM容量を超える数10GB単位のデータに対して適用する場合はメモリスワップにより効率が著しく低下する問題があった。そこで我々は特にサポートベクターマシン(SVM)の機械学習において、現在汎用的に利用可能なマルチコアプロセッサおよびメモリ階層構造の特長を利用し、RAM容量を超えるデータを用いたSVM学習を高速に行うアルゴリズム、StreamSVMを提案した。提案アルゴリズムはDual Cached Loopsという提案スキームの上で動作する。Dual Cached Loopsは2つのスレッドが非同期的に動作する。Reading threadとよばれるスレッドはハードディスク(HDD)に連続アクセスし、繰り返しデータをHDDからRAMへ読み込む。一方のTraining ThreadとよばれるスレッドはRAMに転送されたデータにのみアクセスするため、HDDからの読み込みのオーバーヘッドを被ることなく、かつ途中で停止することなくデータアクセスが可能である。RAMへのアクセスはHDDからの読み込みに比べ高速であるため、Readingthreadが一度データを読み込む間に何回もデータにアクセスすることが可能であり、高速なパラメータ更新が可能となる。評価実験により、提案手法は既存手法に比べて非常に高速に学習が可能であることを確認した。さらに、この提案スキームを用いて他の機械学習の問題であるロジスティック回帰やサポートベクター回帰に対するアルゴリズムを開発した。また、複数のモデルを同時に学習する手法も開発することができた。これによってストリームデータをHDDに記憶させながら、それらを無駄にすることなく、またオンライン学習アルゴリズムの効率の良さを保ちながらバッチ学習を行うことができる。このアルゴリズムおよび方法論によって、当初の目的であったデータストリーム環境における制限を克服しながら今までの方法と匹敵する高い精度を達成することが可能になったと言える。

Current Status of Research Progress
Current Status of Research Progress

2: Research has progressed on the whole more than it was originally planned.

Reason

当初のアプローチとは違うアプローチであるが、開発されたStreamSVMアルゴリズムおよびDual Cached Loopsを用いた他手法によって、当初の目的であったデータストリーム環境における制限を克服しながら今までの方法と匹敵する高い精度を達成することが可能になった。そのため、研究の目的はおおむね順調に達成されたといえる。

Report

(2 results)
  • 2012 Annual Research Report
  • 2011 Annual Research Report
  • Research Products

    (2 results)

All 2012 Other

All Presentation (1 results) Remarks (1 results)

  • [Presentation] Linear Support Vector Machines via Dual Cached Loops2012

    • Author(s)
      Shin Matsushima
    • Organizer
      8th ACM SIGKDD Conference on Knowledge Discovery and Data Mining (KDD-2012)
    • Place of Presentation
      北京・中国
    • Year and Date
      2012-08-12
    • Related Report
      2012 Annual Research Report
  • [Remarks]

    • URL

      http://www.r.dl.itc.u-tokyo.ac.jp/~masin/streamsvm.html

    • Related Report
      2012 Annual Research Report

URL: 

Published: 2011-12-12   Modified: 2024-03-26  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi