2014 Fiscal Year Research-status Report
複雑かつ大規模なデータ処理のためのデータマイニング及び機械学習法
Project/Area Number |
24700140
|
Research Institution | Tokyo Institute of Technology |
Principal Investigator |
田部井 靖生 東京工業大学, 情報理工学(系)研究科, 東工大特別研究員 (20589824)
|
Project Period (FY) |
2012-04-01 – 2016-03-31
|
Keywords | アルゴリズム / 機械学習 / ビッグデータ |
Outline of Annual Research Achievements |
平成25年度は, コンパクトなデータ表現上での機械学習法を提案した。提案手法は, 超高次元フィンガープリントリントをJaccard(Tanimoto)類似度をハミング距離で近似的に保存したまま低次元空間へハッシュするminhashの大規模な線形分類モデルの学習への応用である. これまでの研究では, minhashを代表とするハッシュ法は類似度検索に主に応用されてきたが, 大規模な分類問題に応用するという試みはされてこなかった. オリジナルのminhashはハッシュされた値における, 1要素当たり64ビットかかり, モデルの学習に応用する際大量のメモリーを消費してしまい実用に耐えられない. そこで提案法では, 精度を落とすことなく64ビットより小さいハッシュ値にハッシュするよう改良を行った. これにより大規模データに対しても精度を犠牲にすることなくモデル学習を行うことができる. 提案手法をサポートベクトルマシンや対数線形回帰モデルの学習の入力として使うことで約数千万化合物-タンパク質相互作用のデータからでも効率的に学習を行なうことができる. 平成26年度では, 提案したコンパクトなデータ表現上での機械学習法をC++にて実装し, ソフトウェアーとして公開した. 公開ソフトウェアーはhttps://sites.google.com/site/interactminhash/からダウンロードして利用することができる.
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
研究計画通り, 提案手法のソフトウェアーを公開できたため.
|
Strategy for Future Research Activity |
平成25年度に提案した大規模タンパク質-化合物の検索法の実装に関しては, ソフトウェアーの公開が間に合わなかった. そのため研究期間を1年延長した. 最終年度は残りのソフトウェアーの公開を行う予定である.
|
Causes of Carryover |
26年度に計画していたノートパソコン及びソフトウェアの納期遅れが生じたため、未使用額が生じた。
|
Expenditure Plan for Carryover Budget |
未使用額は、ノートパソコンとソフトウェアの購入経費としたい。
|