研究課題/領域番号 |
12208001
|
研究種目 |
特定領域研究
|
配分区分 | 補助金 |
審査区分 |
生物系
|
研究機関 | 東京大学 |
研究代表者 |
高木 利久 東京大学, 大学院新領域創成科学研究科, 教授 (30110836)
|
研究分担者 |
辻井 潤一 東京大学, 大学院情報学環, 教授 (20026313)
高井 貴子 東京大学, 大学院情報理工学系研究科, 科学技術振興特任教員 (60222840)
福田 賢一郎 産業技術総合研究所, 生命情報科学研究センター, 研究員 (10357890)
小池 麻子 株式会社日立製作所, 中央研究所ライフサイエンスセンター, 主任研究員
|
研究期間 (年度) |
2000 – 2004
|
キーワード | オントロジー / ゲノムデータベース / シグナル伝達系 / テキストからの情報抽出 / 自然言語処理 / タグ付きコーパス / 遺伝子辞書 / パスウェイデータベース |
研究概要 |
ゲノム配列、遺伝子発現、分子間相互作用などの大量データを解釈し生物学的な意味を付与するためには、おもに論文の形で蓄えられた、遺伝子やタンパク質の相互作用情報や機能情報を取り出しデータベース化することが不可欠である。生命機能のデータベース化は生命のシステム的理解に向けた解析を進める上でも欠かせない。このような観点から、我々は文献に書かれた生命機能に関わる知識をいかに自動的に抽出するか、それをいかに計算機の中に表現し利用するかという課題に取り組んできた。 以下にその成果の概要を示す。 a)知識抽出システムの開発 文献に書かれた遺伝子/タンパク質/化合物の相互作用情報の抽出技術をほぼ確立した。我々の知識抽出システムは、50%程度の再現率、90%程度の精度の性能を備えている。 b)生命機能に関する辞書やデータベースの構築と公開 文献から相互作用を取り出すには、まず遺伝子名やファミリ名を認識する必要があり、そのための辞書を開発した。その一つである遺伝子名辞書GENAには、約88万の遺伝子名情報が納められており、90〜95%の遺伝子名をカバーしている。これらの辞書と前述の知識抽出システムを利用して、相互作用データベース(PRIME)と機能用語辞書を構築・公開した。PRIMEには、ヒト、ラットなどの6種類の真核生物の相互作用情報が収録されている。その数は約300万である。 c)知識抽出のためのコーパスやオントロジーの整備 知識抽出システムの開発や評価には,文章や単語に適切な意味タグが付与されたコーパスや専門用語とその関係を登録したオントロジーなどの整備が不可欠である。本研究では、そのために、MEDLINEアブストラクト2,000件に意味タグおよび品詞情報タグを付与したGENIAコーパスを構築・公開した。また、コーパスへの意味タグの付与のために、GENIAオントロジーを構築した。
|