研究課題/領域番号 |
24300056
|
研究機関 | 神戸大学 |
研究代表者 |
大川 剛直 神戸大学, システム情報学研究科, 教授 (30223738)
|
研究期間 (年度) |
2012-04-01 – 2017-03-31
|
キーワード | 知識発見 / データマイニング / バイオインフォマティクス / 三次元データ / バイオデータ処理 |
研究概要 |
本研究では、タンパク質分子表面データを対象とした画像特徴量記述法とそれに基づく三次元データマイニング手法について検討している。その成果の要約は以下の通りである。 1. 三次元画像特徴量を用いたタンパク質結合部位比較手法の開発:タンパク質分子表面を三次元点群画像として捉え、画像から抽出された特徴点における特徴量を用いてタンパク質ポケット部位の分子表面を比較する手法を提案した。提案手法では、特徴量計算の際に、点群中の3点を包含する最小範囲を基本として周辺点群範囲を設定するとともに、特徴点同士の類似度が高く、位置関係が互いに整合する特徴点ペアの集合のうち、最大のものを求めることにより、類似度を算出する。提案手法を40個のタンパク質の分子表面データに対して適用した結果、特にリガンドATPの結合部位に関して、有効性を確認した。 2.三次元画像に基づくグラフマイニング手法の基礎的検討:上記のような三次元点群画像から得られる特徴点に基づいてタンパク質分子表面をグラフ表現し、マイニング処理により類似部分グラフを検出することで、結合部位に固有の構造や物性の観点から類似性を評価する方式について検討し、結合するリガンドの種類などに応じて、マイニングの際に重視する必要がある特徴量が変化することを確認した。 3.文献からのタンパク質間相互作用情報の自動抽出手法の開発:タンパク質の分子表面画像に基づくデータマイニング結果を評価するためには、既知のタンパク質間相互作用に関する知見が重要な役割を果たす。そこで機械学習により、相互作用タンパク質ペアに関する知識を文献から自動抽出する手法を開発した。提案手法では,相互作用の有無の判定に大きな影響を与える特定のキーワードをもとに、訓練データを複数に分割して学習する。このとき、有効なキーワードであるかどうかを事例毎に事前予測することにより、抽出精度の向上を達成した。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
研究実施計画に掲げたタンパク質分子表面の三次元画像的取り扱いのための表現方法について検討し、複数の特徴点とその関連性により、グラフ表現する方式、ならびに、グラフ表現された分子表面からのマイニング方式について提案した。提案手法をもとに、相互作用部位の機能に基づく類似性と分子表面画像に基づく類似性との関連について、小規模なデータセットをもとに分析した結果、一部のリガンドに対する結合部位において、必ずしも相関が見られないことが判明した。このような結果を踏まえて、特徴点や特徴量に要求される特性を明確にし、改善方法について検討することも、本研究の範囲内であり、概ね計画通りの進展と言える。
|
今後の研究の推進方策 |
現在までの達成度の理由において述べたように、現在提案している画像の表現法においては、一部のリガンドに対する結合部位において、必ずしも機能に基づく類似性と分子表面画像に基づく類似性の相関が見られないことがあることが明らかになった。そこで、今後は、まず、特徴点が備えるべき特性について再検討し、より適切な特徴点抽出法を開発する。その際、特に、分子表面の形状と深い関わりがある曲率データの積極的な活用を考えている。 また、これと並行に、当初の研究実施計画に従い、データの大規模化への対応を行うため、分子表面データの比較・マイニングの高速化について検討を進めていく。具体的には、グラフの抽象化、並列化処理、検索専用チップの導入を検討しながら、高速化手法の開発に注力する。
|
次年度の研究費の使用計画 |
本年度は、小規模なデータセットを対象とした評価が中心となったこと、および、次年度において、複数のマルチコアCPUから構成されるサーバ機器、ならびに、検索専用ハードウェアの導入を計画しており、その購入にあたっての予算確保のため、次年度使用額が発生した。 次年度の研究費と合わせることにより、並列処理が可能なマルチコアの計算機環境と検索専用ハードウェアを導入し、大規模データセットを対象とした実験環境を整備する。
|