本研究では、マルチプルエッジの概念を応用し、文献から時間的・空間的に関連の深いパスウェイ情報を高精度に抽出する研究を行った。また、公開データベースからもシグネチャとなる情報を取得し、関係の近いパスウェイをクラスタリングすることで、これまで困難であった、高精度で網羅性の高いシグネチャパスウェイ知識ベースの構築を可能とした。さらに、ここで構築された知識ベースを用いて、発現データを入力として、薬剤投与の種類などのパラメータごとに変動しているパスウェイを自動的に固定し、生体内での主要なパスウェイ変化を予測した。具体的にはまず、遺伝子・蛋白質名称とパスウェイ名称、さらにマルチプルエッジを構成する相互作用動詞の集合を集めた辞書を構築し、文献中から遺伝子・タンパク質名称とマルチプルエッジ集合を抽出した。これらの技術を統合することで、自然言語からフォーマット化された情報を自動的に生成するための研究開発を行った。また、正解率を上げるために構文解析技術と述語論理構造を用いて関連構造検索を行い、ハブ遺伝子の近傍に記述されている遺伝子セットを自動的に収集するためのプロトタイプを作成した。平成19年度に構築したシグネチャパスウェイ知識データを用いて、発現データから統計的有意に変動している遺伝子セットを抽出し、それらの遺伝子セットに対して、シグネチャとなるパスウェイを自動的に付与する手法について研究開発を行った。さらに、ここで開発した手法を用いることで、薬剤応答や転写因子の刺激などにおいて、フェノタイプの変化とともに変動するパスウェイの予測を可能とするためのプロトタイプ作成と実行実験を行った。
|