研究課題/領域番号 |
24300056
|
研究機関 | 神戸大学 |
研究代表者 |
大川 剛直 神戸大学, システム情報学研究科, 教授 (30223738)
|
研究期間 (年度) |
2012-04-01 – 2017-03-31
|
キーワード | 知識発見 / データマイニング / バイオインフォマティクス / 三次元データ / バイオデータ処理 |
研究実績の概要 |
本研究では、タンパク質分子表面を対象としたデータ表現法とそれに基づく三次元データマイニング手法について検討している。平成27年度の主要な研究成果は以下の通りである。 1. タンパク質分子表面の高速パターンマッチング手法:三次元点群画像を対象に、照合する点群部分集合を発見するためのメモリ型プロセッサの開発を通して、あるタンパク質(クエリタンパク質)のどの特徴点が他のタンパク質(参照タンパク質)のどの特徴点に対応するかを高速かつ網羅的に求める手法を提案した。 2. 特徴点対応表に基づくホットスポット抽出:上記手法により生成される特徴点対応表に対するバイクラスタリング処理により、クエリタンパク質の特徴点と対応する参照タンパク質特徴点の中で、多数のタンパク質に共通する類似部分をホットスポットとして抽出する手法を開発した。これを実現するため、既存のバイクラスタリング手法をベースに、化合物間類似度の導入およびタンパク質グループからの排他的選択の2点を拡張したアルゴリズムを提案した。20種類の蛋白質を対象とした実験を実施し、抽出ホットスポットの正解率が、拡張前の手法における65.9%から70.4%に向上することを確認した。 3. タンパク質相互作用情報の抽出:文献テキストからタンパク質間相互作用情報を抽出する新しい手法を提案した。提案手法では、分類のための用いる多数の特徴の中に、関連性のある特徴の組が存在するとともに、優先的な利用が有効である特徴や利用を差し控えた方が良い特徴があることに着目し、特徴のグループ化と特徴の最適な組合せを探索する枠組みを取り入れている。4種類の代表的なコーパスに対する実験を通して、特徴のグループ化と探索を行わない方式に比較して高い精度が得られることを確認した。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
平成27年度の交付申請書に記載した(1)特徴点と特徴量の評価、(2)グラフ表現に基づく機能部位発見の高精度化と高速化、(3)分子表面データ比較の高速化と有意特徴点選択手法の開発、(4)評価支援ツールの開発のうち、(1)、(3)、(4)に対して、それぞれ具体的な成果が得られている。(2)についても、ほぼ手法の開発は完了しており、今後、データセットを拡大して評価実験を行う段階に到達している。
|
今後の研究の推進方策 |
今後の研究方策としては、提案した手法をもとに、研究協力者による協力のもと、専用ハードウェアの利用により、より大規模なデータセットに対する評価実験を行う計画である。また、提案手法の有効性を確認するため、三次元データマイニングの結果として抽出されたホットスポットの評価が重要となるが、新しい知見を評価する上で、単に既存のデータベースと比較するだけでは十分とは言えず、ウェットな実験による検証が必要となる。そこで、生体分子工学の専門家との協力体制を維持することで、効果的に研究を推進する予定である。
|
次年度使用額が生じた理由 |
掲載確定した論文の実際の掲載が平成28年度になったこと、ならびに、国際会議等における研究成果発表を、一部、平成28年度に行うことになり、そのための予算確保のため、次年度使用額が発生した。
|
次年度使用額の使用計画 |
平成28年度掲載となった論文の掲載料については、速やかに使用する。また、28年度の研究費と合わせることにより、いくつかの国際会議や国内会議での発表、ならびに論文発表を行う。また、端末機器やネットワーク機器を導入し、本科研費にて購入したサーバ機器を利用した実験環境の整備を進める。
|