2004 Fiscal Year Annual Research Report
蛋白質立体構造データベースからのデータマイニングに関する研究
Project/Area Number |
15500197
|
Research Institution | Osaka University |
Principal Investigator |
大川 剛直 大阪大学, 大学院・情報科学研究科, 助教授 (30223738)
|
Keywords | バイオインフォマティクス / 蛋白質 / 立体構造データ / 機能情報抽出 / プロファイル / 検索システム / テキストマイニング / データマイニング |
Research Abstract |
本研究では、蛋白質立体構造データベースをもとに、その系統的な計算機処理を通して、機能の解析に有用な様々な情報を発見する手法について検討している。本年度は、類似相互作用蛋白質検索のためのプロファイル抽出、ならびに、立体構造データベースを活用した文献からの情報抽出手法について検討した。 (1)相互作用データのマイニングによるプロファイル抽出 蛋白質と化合物の複合体に関する立体構造データをもとに、同一化合物に対する相互作用部位の特徴を、プロファイルとして抽出する方式について検討した。複数の相互作用部位において原子の個数や配置は同一ではないため、原子間の対応を求めることは困難である。そこで、原子頻度分布を求めることにより、相互作用に有意な原子配置を導出する方式を提案した。提案方式により自動生成されたプロファイルをもとに類似相互作用蛋白質検索実験を行った結果、人手で作成したプロファイルと同等の結果が得られ、有効性を確認した。 (2)立体構造データベースに基づく機能情報抽出 蛋白質構造解析に関する文献内には蛋白質の機能情報が内在しているが、これをテキスト処理のみで抽出することは困難である。そこで本研究では、立体構造データの利用により、機能情報記述文を特定する方式を提案した。複合体蛋白質に対しては、テキストをもとに作用対象判定ルールにより識別された作用対象と残基との原子間距離を計算し、相互作用の有無を判定することで文の抽出を実現した。また、単体蛋白質に対しては、相同な配列を有する蛋白質の立体構造データから相互作用部位を推定することで、機能情報文を特定する方式を開発した。12編の文献に対する抽出実験の結果、複合体、単体のそれぞれに対して、0.71、0.72のF値が得られ、有効性を確認した。
|
Research Products
(3 results)