研究実績の概要 |
平成25年度は, コンパクトなデータ表現上での機械学習法を提案した。提案手法は, 超高次元フィンガープリントリントをJaccard(Tanimoto)類似度をハミング距離で近似的に保存したまま低次元空間へハッシュするminhashの大規模な線形分類モデルの学習への応用である. これまでの研究では, minhashを代表とするハッシュ法は類似度検索に主に応用されてきたが, 大規模な分類問題に応用するという試みはされてこなかった. オリジナルのminhashはハッシュされた値における, 1要素当たり64ビットかかり, モデルの学習に応用する際大量のメモリーを消費してしまい実用に耐えられない. そこで提案法では, 精度を落とすことなく64ビットより小さいハッシュ値にハッシュするよう改良を行った. これにより大規模データに対しても精度を犠牲にすることなくモデル学習を行うことができる. 提案手法をサポートベクトルマシンや対数線形回帰モデルの学習の入力として使うことで約数千万化合物-タンパク質相互作用のデータからでも効率的に学習を行なうことができる. 平成26年度では, 提案したコンパクトなデータ表現上での機械学習法をC++にて実装し, ソフトウェアーとして公開した. 公開ソフトウェアーはhttps://sites.google.com/site/interactminhash/からダウンロードして利用することができる.
|