研究課題/領域番号 |
12208001
|
研究機関 | 東京大学 |
研究代表者 |
高木 利久 東京大学, 大学院・新領域創成科学研究科, 教授 (30110836)
|
研究分担者 |
辻井 潤一 東京大学, 大学院・情報学環, 教授 (20026313)
高井 貴子 東京大学, 大学院・情報理工学系研究科, 科学技術振興特任教員 (60222840)
福田 賢一郎 産業技術総合研究所, 生命情報科学研究センター, 研究員 (10357890)
小池 麻子 株式会社日立製作所中央研究所ライフサイエンスセンター, 研究員
|
キーワード | オントロジー / ゲノムデータベース / シグナル伝達系 / テキストからの情報抽出 / 自然言語処理 / タグ付きコーパス / 遺伝子辞書 / パスウェイデータベース |
研究概要 |
生命機能を計算機でうまく扱えるようにすることを目標に、具体的には、以下の課題に取り組んでいる。 a)文献等から相互作用に関する知識や機能に関する用語を自動的に抽出するシステムを開発すること b)このシステムを用いて種々の辞書やデータベースを構築すること c)知識抽出システムのために必要となるコーパスやオントロジー等を整備すること 上記の課題に関する主な研究成果は下記の通りである。 a)知識抽出システムの開発 文献から自動的に遺伝子機能を収集するための文の構造解析+抽出プログラムを作成した。遺伝子レベルで約19万件、family nameレベルで15万件ほどの機能が高精度で抽出できた。抽出性能は再現率45-50%・精度91-94%であり、従来の機械学習の方法よりも高精度である。本手法を大量のアブストラクトに適用することにより、これまでアノテーション出来ていなかった遺伝子の機能情報を数多く抽出した。 b)辞書やデータベースの構築と公開 生物学的機能に関する用語を半自動的に集めて機能用語辞書とした。2.5万程度の用語(名詞句)もしくは機能を意味する動詞等を収集した。この機能用語辞書および上記抽出システムにより得られた遺伝子機能情報を、すでに公開しているPRIMEデータベースを追加・拡張する形で公開した。 c)知識抽出のためのコーパスやオントロジーの整備 公開中のGENIAコーパスのエラーを修正し、品詞情報を付与したバージョン3.02pを公開した。また、PennTree-bank形式の構文情報付与の作業に着手し、200件分について一時作業を終了した。イベント情報については付与する情報のスキーマを決定した。外部リソース(GOなどのオントロジー)とGENIAオントロジーの対応をとり、テキスト中に現れる専門用語を用いてオントロジーを拡張するため、テキスト中の用語の表記の揺れを吸収するマッチング手法・異表記を自動生成する手法を開発した。
|