2016 Fiscal Year Research-status Report
ビッグデータを用いた機械学習に適した最適化アルゴリズムとアーキテクチャの構成
Project/Area Number |
26730114
|
Research Institution | The University of Tokyo |
Principal Investigator |
松島 慎 東京大学, 大学院情報理工学系研究科, 助教 (90721837)
|
Project Period (FY) |
2014-04-01 – 2018-03-31
|
Keywords | 機械学習 / 凸最適化 / スパース学習 / 大規模学習 / SVM |
Outline of Annual Research Achievements |
本研究について申請者は以下のように2つの項目について研究実施計画を掲げていた。 1. SSD を用いた単一マシンにおける Dual Cached Loops のさらなる大規模化 SSD の特性を生かすことにより数十TBのデータに基づくSVMの学習が可能であるスキー ムを考案、実装する。さらに、それを実際に利用した知識発見の応用を行い、開発されたスキームの有効性を示し、実データに応用し実際に有用な知識を取り出す事を目的とした実践的なデータマイニングとしての可能性を探る。 2.スパース学習を用いた Dual Cached Loops の拡張 従来では数TBのデータを用いなければ学習できないスパース学習について、扱うデータ量を抑えながらスパース学習が可能であるスキームを考案、実装する。さらに、それを実際に利用した知識発見の応用を行い、開発されたスキームの有効性を示す。特に研究の後半段階では、本来は非線形識別でしか達成できないほどの高次元写像を利用可能なアルゴリズムを検討する。 1.について、數十TBの実データで有用な知識を取り出す実践的な応用がMicrosoft, Google, Facebook等の世界的なスケールを持つIT産業分野には多くあるものの、広く応用可能なデータマイニング手法として確立されうるほどの公開データが存在せず、どのような形で応用研究を行うことが可能か検討中である。2.について、従来では数TBのデータを用いなければ学習できないスパース学習について、扱うデータ量を抑えながらスパース学習が可能であるスキームを考案、実装し、成果をECML-PKDDにて発表した。特にテキストデータやDNA配列データなどでは部分文字列の特徴量を用いた学習により、接尾辞配列などの効率的なデータ構造を用いる事によって、部分文字列に対応する特徴を効率よく抽出する事が可能であることを示した。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
2.について論文を発表し、さらに派生した研究で成果が出始めている。
|
Strategy for Future Research Activity |
1.について、今後のデータの利用可能性を検討しつつ、 小データからの大規模学習の可能性について探る。 2.について、解釈性の問題をがあることを発見したため、 これについても解決策を考案する。
|
Causes of Carryover |
研究計画が次年度までに期間延長を申請したため(申請書参照) これに伴い次年度に使用する研究費が生じた。
|
Expenditure Plan for Carryover Budget |
論文執筆、公開に伴う経費や発表のための出張経費へ使用する予定である。
|