2009 Fiscal Year Annual Research Report
タンパク質機能知識の発見のための異種データハイブリッドマイニング
Project/Area Number |
21500139
|
Research Institution | Kobe University |
Principal Investigator |
大川 剛直 Kobe University, 工学研究科, 教授 (30223738)
|
Keywords | 知識発見 / データマイニング / バイオインフォマティクス / バイオデータ処理 / 情報抽出 |
Research Abstract |
1.三次元構造データと相互作用データのハイブリッド利用によるタンパク質機能部位抽出 タンパク質立体構造データとタンパク質-タンパク質相互作用ネットワークを併用することにより、機能未知タンパク質の相互作用部位を抽出する手法を提案した。提案手法では、あるタンパク質に対してネットワーク上で近傍に位置するタンパク質(周辺タンパク質)が類似機能を有することに着目し、周辺タンパク質をその立体構造類似度をもとに、特徴的部位を共有するクラスタに分類する。そして、各クラスタに機能未知タンパク質を追加して構成されるタンパク質グループから構造や物性が類似する部分構造をマイニングすることで相互作用部位を抽出する。さらに、抽出結果を既知機能部位と仮定し、クラスタ再構築を繰り返すことにより、精度向上を実現した。相互作用部位が既知である蛋白質の実データをもとに抽出実験を行い、三次元構造データと相互作用データの相補的利用が機能部位抽出に有効であることを示した。 2.三次元構造データと文献データのマイニングによる機能情報抽出に向けたタンパク質名特定の高精度化 文献データを含むハイブリッドマイニングにおいて、文献中のタンパク質名を的確に特定することが重要である。そこで、特に訓練例が十分に得られない場合に、訓練例拡張により、高い判定精度でタンパク質名が特定可能な手法を提案した。提案手法では、訓練例の一部を妥当性チェック用集合とし、この文集合に対してタンパク質名のタグ付けを行う。タグ付け結果を評価し、タグ付け精度が向上するように外部コーパスからの文選択を行い、訓練例を拡張する。以上の処理を繰り返すことで効果的な文の選択を実現し、タンパク質名を高精度に特定することに成功した。
|