マルチプルエッジを用いた大規模文献集合からのパスウェイ情報の抽出と、シグネチャパスウェイ知識ベース構築のための研究開発を行った。 1.大規模文献集合からのパスウェイ情報の抽出 データマイニングとテキストマイニングの技術を用いて、大規模な文献集合からマルチプルエッジを基にしたパスウェイ情報と、関連する遺伝子のセットを抽出するための研究を行った。応募者はこれまで、文献から遺伝子、蛋白質間の相互作用情報を抽出する研究を行ってきたが、これらの技術を応用して、パスウェイ情報と遺伝子セットに関する情報の抽出を行った。具体的には、遺伝子、蛋白質名称とパスウェイ名称などを収集したプロトタイプ辞書を構築し、文献中から遺伝子、タンパク質名称とマルチプルエッジの集合を半自動的に抽出した。この技術を応用することで、自然言語で記述された論文集合からフォーマット化された情報を自動的に生成するための研究開発を行った。また、正解率を上げるために、相互作用ネットワーク上でのハブ遺伝子の近傍に記述されている遺伝子セットを自動的に収集する研究を行った。 2.シグネチャパスウェイ知識ベースの構築 上記1.のようにして文献から取得されたパスウェイと遺伝子セットの情報に加えて、Gene CardやHPRDなどの利用可能な公開データベースからシグネチャパスウェイと遺伝子セットの情報を自動的に取得することで、相互作用ネットワークのハブとなる遺伝子をキーとしてシグネチャパスウェイ知識ベースのプロトタイプを構築した。このようにして構築した知識ベースは、20年度の研究に応用してゆく予定である。
|