2015 Fiscal Year Annual Research Report
複雑かつ大規模なデータ処理のためのデータマイニング及び機械学習法
Project/Area Number |
24700140
|
Research Institution | Tokyo Institute of Technology |
Principal Investigator |
田部井 靖生 東京工業大学, 情報理工学(系)研究科, 東工大特別研究員 (20589824)
|
Project Period (FY) |
2012-04-01 – 2016-03-31
|
Keywords | 簡潔データ構造 / 類似度検索 / 機械学習 |
Outline of Annual Research Achievements |
本研究プロジェクトでは, 大規模データを処理する上で重要な検索技術と圧縮技術を応用した大規模機械学習技術に焦点をあてて研究開発を行い成果を挙げることにできた. いずれの成果も簡潔データ構造と呼ばれる, 近年, めざましい発展を遂げる技術の基礎と応用によるものである. (i) 検索技術 本プロジェクトを始める以前, 私は大規模グラフデータベースの類似度検索技術の開発を行ってきた. 開発した手法は数千万からなるグラフデータベース(化合物データベースなど)でも高速に類似度検索を行うことが可能である. プロジェクト期間中はこれまで開発した手法を大規模ネットワークの検索手法へと拡張を行った. ネットワーク検索技術は, 近年のタンパク質-化合物データベースの大規模化に伴い, 重要な技術として注目されている. 提案手法では, 既存手法よりも最大100倍の高速化に成功した. 提案手法に関する論文はデーターマイニングに関するトップの国際会議KDDに採択され, 手法を実装したソフトウェアーは実際の創薬の場面で利用されて始めている. (ii) 機械学習の大規模化 データをランダム射影によりコンパクトに表現し処理する技術は, 現在, 理論計算機科学分野で活発に研究されている分野である. プロジェクト期間中, この技術を機械学習に応用し, 線形分類器の学習の大規模化を行った. 手法は, 数十億からなるタンパク質-化合物データでも高速かつメモリー効率よく分類器を学習することが可能である. 提案法を実装したソフトウェアーを公開し, 世界中の研究者・技術者に利用されている. ビッグデータ時代を迎え, 大規模データを処理する技術は, ますます重要な技術として注目を集めている, 本プロジェクトで開発した技術は今後ビッグデータを処理する標準技術となるよう整備をおこなっていく予定である.
|