2011 Fiscal Year Annual Research Report
タンパク質機能知識の発見のための異種データハイブリッドマイニング
Project/Area Number |
21500139
|
Research Institution | Kobe University |
Principal Investigator |
大川 剛直 神戸大学, システム情報学研究科, 教授 (30223738)
|
Keywords | 知識発見 / データマイニング / バイオインフォマティクス / バイオデータ処理 / 情報抽出 |
Research Abstract |
タンパク質の多くは他のタンパク質やリガンドと呼ばれる低分子化合物と結合することにより、その機能を発現する。このため、結合部位情報や相互作用情報はタンパク質機能解析において極めて重要な役割を果たす。本研究は、これらの情報を発見するためのハイブリッドマイニング手法について検討したものであり、その成果の要約は以下の通りである。 1.構造データと分類データをハイブリッド利用したグラフマイニングによるタンパク質結合部位予測 タンパク質分子表面のグラフ表現データをもとに,頻出する類似部分グラフを発見することにより、与えられたタンパク質の結合部位を予測する新しい手法を提案した。提案手法では、タンパク質のリガンド結合特異性に注目し、結合リガンドに基づく分類データを活用することで、特定のリガンド結合グループのみに高頻度に出現する局所構造をグラフマイニングの枠組で抽出することにより、結合部位の予測を試みていることに特徴がある。このとき、類似リガンドに結合する複数のグループ間において、結合部位の構造も類似することを考慮し、グループの自動統合の枠組を導入することで、予測精度の向上を図った。 2.構造データとテキストデータをハイブリット利用した転移学習によるタンパク質相互作用情報抽出 昨年度までの研究から、テキストデータからの相互作用情報抽出において、構造データの利用が重要な役割を果たすことを明らかにしているが、一方で、異分野の訓練データの活用を図る転移学習を導入する際には、容易に構造データが利用できるとは限らないことが問題となる。そこで本研究では、新しい転移学習の枠組である選択的転移学習手法を提案した。提案手法では、構造データから得られる特徴が、情報抽出結果に対してどのように寄与するかに着目することにより、抽出対象テキストを、転移学習の適用が有効と期待される文集合とそうでない文集合に分割する。これにより、構造データの利用と転移学習の併用を可能とし、相互作用情報の抽出精度向上を達成した。
|
Research Products
(3 results)