2010 Fiscal Year Annual Research Report
タンパク質機能知識の発見のための異種データハイブリッドマイニング
Project/Area Number |
21500139
|
Research Institution | Kobe University |
Principal Investigator |
大川 剛直 神戸大学, システム情報学研究科, 教授 (30223738)
|
Keywords | 知識発見 / データマイニング / バイオインフォマティクス / バイオデータ処理 / 情報抽出 |
Research Abstract |
1.構造データ・相互作用データ・配列データのハイブリッド利用によるタンパク質相互作用部位予測 平成21年度に開発を進めたタンパク質立体構造データとタンパク質-タンパク質間相互作用ネットワークを相互利用したタンパク質相互作用部位抽出手法をベースに、配列類似性を併せて評価するプロセスを導入することにより、予測精度の向上を図った。 2.小規模訓練データのもとでの構造データと文献データのハイブリッド利用によるタンパク質機能情報抽出 タンパク質構造解析に関する文献を対象として、該当するタンパク質の構造データと文献テキストデータの両者から構成される特徴空間を構築し、機械学習によりタンパク質機能情報を抽出する方式を提案した。特に、本年度は能動学習と半教師付き学習の考え方を導入することで、小規模な訓練データを用いて初期学習された分類器の出力結果の信頼度を、正解が判明しているデータ集合との特徴空間上での距離分布に基づき算出し、信頼度が高いデータ集合を次の学習サイクルにおける訓練データセットに追加するとともに、信頼度が低いデータ集合に関してユーザからのフィードバックを得ることで、少数の訓練データに基づく効果的な学習を実現した。 3.構造データと機能データの利用による文献間関連性の抽出とその関連文献検索支援への応用 タンパク質構造解析に関する文献に内包されているタンパク質機能情報や構造情報を、PDB、SCOP、PubMed、GO、PROSITEなどの関連データベースの統合利用により抽出し、これをもとに、文献間の関連性を評価可能な方式を提案した。特に、利用者によって適切に選択された少数の入力文献をもとに、概念間の関連性を調整することにより、利用者の意図の反映を可能とし、関連文献検索支援への応用を図った。
|
Research Products
(7 results)