• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 課題ページに戻る

2013 年度 実施状況報告書

複雑かつ大規模なデータ処理のためのデータマイニング及び機械学習法

研究課題

研究課題/領域番号 24700140
研究機関東京工業大学

研究代表者

田部井 靖生  東京工業大学, 情報理工学(系)研究科, 東工大特別研究員 (20589824)

キーワードアルゴリズム / 機械学習 / ビッグデータ
研究概要

平成25年度は当初計画していた(i)大規模ネットワークの検索, (ii)コンパクトなデータ表現の応用において成果を上げることに成功した. (i)に関しては, 簡潔データ構造の一種であるウェーブレット木上で2次元区間検索を行なうことで高速に行うアルゴリズムを設計した. 本検索手法の応用として大規模化合物-タンパク質相互作用の検索が上げられる. 薬はいくつかのタンパク質と相互作用する化合物であり, 提案手法を応用させることにより, クエリーに対する薬の候補を検索することが可能となる. 約200万化合物-タンパク質相互作用からなるデータセットに適応し, 他の既存検索手法よりも高速であることが示すことに成功している. 提案手法に関する論文はデータマイニングのトップ会議KDD2014に採択された.
(ii)に関しては, 超高次元フィンガープリントをJaccard-Tanimoto類似度をハミング距離で近似的に保存したまま低次元空間へハッシュするminhashを化合物-タンパク質相互作用予測へ応用した. オリジナルのminhashはハッシュされた1要素当たり64ビットかかってしまうが、精度を落とすことなく64ビットより小さいハッシュ値に改良を行った. これにより大規模データに対しても適応することができる. 提案手法をサポートベクターマシンの入力として使うことで, 約一千万化合物-タンパク質相互作用のデータからでも効率的に学習を行なうことができる. 本手法に関する論文はバイオインフォマティクスの国際会議GIW2014に採択された.

現在までの達成度 (区分)
現在までの達成度 (区分)

2: おおむね順調に進展している

理由

当初計画した成果を上げることができたため.

今後の研究の推進方策

平成26年度は, これまで開発した手法を産業利用, 主に創薬の場面で使っていただけるよう活動を行っていく.

次年度の研究費の使用計画

納期の遅れにより計算機が年度内に購入できなかったため。
26年度のはじめに前年度購入できなかった計算機を購入予定。

  • 研究成果

    (2件)

すべて 2013

すべて 雑誌論文 (1件) (うち査読あり 1件) 学会発表 (1件)

  • [雑誌論文] Scalable prediction of compound-protein interactions using minwise hashing2013

    • 著者名/発表者名
      Y.Tabei and Y.Yamanishi
    • 雑誌名

      BMC Systems Biology

      巻: 7 ページ: S3

    • DOI

      10.1186/1752-0509-7-S6-S3

    • 査読あり
  • [学会発表] Succinct Interval-Splitting Tree for Scalable Similarity Search of Compound-Protein Pairs with Property Constraints2013

    • 著者名/発表者名
      Y.Tabei, A.Kishimoto, M.Kotera, Y.Yamanishi
    • 学会等名
      19th ACM SIGKDD Conference on Knowledge Discovery and Data Mining (KDD2013)
    • 発表場所
      シカゴ
    • 年月日
      20130810-20130814

URL: 

公開日: 2015-05-28  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi