2013 Fiscal Year Research-status Report
複雑かつ大規模なデータ処理のためのデータマイニング及び機械学習法
Project/Area Number |
24700140
|
Research Institution | Tokyo Institute of Technology |
Principal Investigator |
田部井 靖生 東京工業大学, 情報理工学(系)研究科, 東工大特別研究員 (20589824)
|
Keywords | アルゴリズム / 機械学習 / ビッグデータ |
Research Abstract |
平成25年度は当初計画していた(i)大規模ネットワークの検索, (ii)コンパクトなデータ表現の応用において成果を上げることに成功した. (i)に関しては, 簡潔データ構造の一種であるウェーブレット木上で2次元区間検索を行なうことで高速に行うアルゴリズムを設計した. 本検索手法の応用として大規模化合物-タンパク質相互作用の検索が上げられる. 薬はいくつかのタンパク質と相互作用する化合物であり, 提案手法を応用させることにより, クエリーに対する薬の候補を検索することが可能となる. 約200万化合物-タンパク質相互作用からなるデータセットに適応し, 他の既存検索手法よりも高速であることが示すことに成功している. 提案手法に関する論文はデータマイニングのトップ会議KDD2014に採択された. (ii)に関しては, 超高次元フィンガープリントをJaccard-Tanimoto類似度をハミング距離で近似的に保存したまま低次元空間へハッシュするminhashを化合物-タンパク質相互作用予測へ応用した. オリジナルのminhashはハッシュされた1要素当たり64ビットかかってしまうが、精度を落とすことなく64ビットより小さいハッシュ値に改良を行った. これにより大規模データに対しても適応することができる. 提案手法をサポートベクターマシンの入力として使うことで, 約一千万化合物-タンパク質相互作用のデータからでも効率的に学習を行なうことができる. 本手法に関する論文はバイオインフォマティクスの国際会議GIW2014に採択された.
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
当初計画した成果を上げることができたため.
|
Strategy for Future Research Activity |
平成26年度は, これまで開発した手法を産業利用, 主に創薬の場面で使っていただけるよう活動を行っていく.
|
Expenditure Plans for the Next FY Research Funding |
納期の遅れにより計算機が年度内に購入できなかったため。 26年度のはじめに前年度購入できなかった計算機を購入予定。
|