研究課題/領域番号 |
17017002
|
研究機関 | 東京大学 |
研究代表者 |
高木 利久 東京大学, 大学院・新領域創成科学研究科, 教授 (30110836)
|
研究分担者 |
中谷 明弘 大学院, 新領域創成科学研究科, 准教授 (60301149)
|
キーワード | オントロジー / 機能解析 / パスウェイデータベース / テキストからの情報抽出 / 自然言語処理 / QTL解析 / 知識発見 / 文献クラスタリング |
研究概要 |
生命をシステムとして理解するために、本研究では次の3つのテーマについて研究を展開した。 (a)表現型情報と種々のゲノム情報の統合および知識発見技術の開発によるシステムの構造解明、(b)医学・生物学文献からの概念およびその関係性の抽出技術と利用技術の開発、(c)複雑な生物知識の表現法および推論法の開発 平成19年度のおもな成果は以下の通りである。 (a)Development誌がオンラインで公開している過去の発表論文中、2001年以降発表分のうちHTML形式による公開がなされている2535報について本文内容をセンテンス単位に分解し、全文の品詞タグ付けおよび句構造分解を行い併せてデータベース化した。量的形質に加えて質的形質(例えば、アルツハイマー病か否かなど)に関連するマーカー(マイクロサテライトやSNP)の組み合わせを網羅的に抽出するツールを作成した。 (b)疾患名称、パスウェイ名称の辞書の拡充を行った。フルペーパー中から必要な実験結果を取り出すための要素技術(図の脚注の文章の意味的分割など)を開発した。また、それに必要な辞書を構築した。原核生物の蛋白質間相互作用抽出システムを開発した。また、生物種を限定せずにゲノム配列のアノテーションを文献ベースで行えるシステムを開発した。 (c)利用者が指定した質問・探索条件に基づいて、蛋白質間相互作用などからパスウェイ情報を複数の種について抽出するシステムを改良した。質問中の蛋白質と探索対象種の蛋白質を結びつける情報として、配列類似性だけでなく、GOの意味類似性、オルソログ情報等を使えるようにした。数百の生物種のゲノム配列情報をもとに、全遺伝子セットの進化過程を効率的かつ高精度で再構築する手法で得られた結果を相互作用や遺伝子機能と対応付けるための手法の開発を試みた。
|