2017 Fiscal Year Annual Research Report
Architectures and optimization algorithms for machine learning from big data
Project/Area Number |
26730114
|
Research Institution | The University of Tokyo |
Principal Investigator |
松島 慎 東京大学, 大学院総合文化研究科, 常勤講師 (90721837)
|
Project Period (FY) |
2014-04-01 – 2018-03-31
|
Keywords | 機械学習 / 凸最適化 / スパース学習 / 大規模学習 / SVM |
Outline of Annual Research Achievements |
本研究について申請者は以下のように2つの項目について研究実施計画を掲げていた。 1. SSD を用いた単一マシンにおける Dual Cached Loops のさらなる大規模化 SSD の特性を生かすことにより数十TBのデータに基づくSVMの学習が可能であるスキームを考案、実装する。さらに、それを実際に利用した知識発見の応用を行い、開発されたスキームの有効性を示し、実データに応用し実際に有用な知識を取り出す事を目的とした実践的なデータマイニングとしての可能性を探る。 2.スパース学習を用いた Dual Cached Loops の拡張 従来では数TBのデータを用いなければ学習できないスパース学習について、扱うデータ量を抑えながらスパース学習が可能であるスキームを考案、実装する。さらに、それを実際に利用した知識発見の応用を行い、開発されたスキームの有効性を示す。特に研究の後半段階では、本来は非線形識別でしか達成できないほどの高次元写像を利用可能なアルゴリズムを検討する。 1.について、SVMだけでなく、ロジスティック回帰などを包含する正則化付き経験リスク最初化問題について、複数のプロセスが同時に動作することで最適化を行うことができるスキームを考案、実装し、成果をECML-PKDDにて発表した。本スキームは単一マシンにおいても複数マシンにおいても同様に動作することができる汎用的なものである。2.について、従来では数TBのデータを用いなければ学習できないスパース学習について、扱うデータ量を抑えながらスパース学習が可能であるスキームを考案、実装し、成果をECML-PKDDにて発表した。特にテキストデータやDNA配列データなどでは部分文字列の特徴量を用いた学習により、接尾辞配列などの効率的なデータ構造を用いる事によって、部分文字列に対応する特徴を効率よく抽出する事が可能であることを示した。
|