2000 Fiscal Year Annual Research Report
Project/Area Number |
12208001
|
Research Category |
Grant-in-Aid for Scientific Research on Priority Areas (C)
|
Research Institution | The University of Tokyo |
Principal Investigator |
高木 利久 東京大学, 医科学研究所, 教授 (30110836)
|
Co-Investigator(Kenkyū-buntansha) |
辻井 潤一 東京大学, 大学院・理学系研究科, 教授 (20026313)
|
Keywords | オントロジー / ゲノムデータベース / シグナル伝達系 / テキストからの情報抽出 / 自然言語処理 |
Research Abstract |
ある分野から抽出された共通な認識を概念とよぶが、概念をサイエンスで利用するためには、背後に隠れている概念の性質や互いの関係までも、明示的に定義することが必要である。この定義がオントロジーと呼ばれるものである。生物学においては、これまでモデル生物ごとに研究が行われてきたが、あいつぐモデル生物のゲノム配列決定により、包括的なオントロジーの開発が求められている。また、生物知識の多くが依然として文献の中に書かれていることから、テキストからの情報抽出などを行う計算機技術を開発することも重要である。 このような動機のもとに研究を進め、平成12年度は以下の成果を得た。 ・真核細胞のシグナル伝達系を対象分野として、オントロジー開発を行った。これに際して、シグナルが伝搬するという従来のモデルとは異なる、生物種間で共通な反応のグループを単位としたモデルを提案した。これは、(1)共通なグループと表現型との関係、(2)グループのユニットである化学反応と生化学的性質との関係、(3)化学反応のユニットである分子とゲノムとの関係の3層からなるが、今年度は上記(1)および(2)の開発を行い、約400概念を関連つけた。 ・テキストからの情報抽出に向けて、隠れマルコフモデルと用語辞書を用いた用語認識システム、単語N-グラムによる意味クラス認定プログラムを開発し、その有効性を論文アブストラクトを用いて実証した。 ・テキストのタグの定義、タグ付け作業の支援及び、タグ情報の管理等を行うツールを開発した。 ・XMLを拡張して、並列表現や相互参照などの表現もマークアップできる言語GPMLを定義した。論文アブストラクト1000件を選び、上記ツールやGPMLを用いて、出現する専門用語に意味タグを付与したコーパスを作成した。このコーパスは、ゲノム情報科学分野の共有資源として公開していく予定である。
|
Research Products
(6 results)
-
[Publications] Ono,T.: "Automated extraction of information on protein-protein interactions from biological literature"Bioinformatics. (印刷中). (2001)
-
[Publications] Takai-Igarashi,T.: "SIGNAL-ONTOLOGY : Ontology for cell signaling"Genome Informatics 2000. 440-441 (2000)
-
[Publications] Yakushiji,A.: "Event extraction from biomedical papers using a full parser"Proceedings of Pacific Symposium on Biocomputing 2001. 408-419 (2001)
-
[Publications] Collier,N.: "The GENIA Project : Knowledge acquisition from biology texts"Genome Informatics. 11. 448-449 (2000)
-
[Publications] Collier,N.: "Extracting the names of genes and gene products with a hidden markov model"Proceedings of COLING 2000. 201-207 (2000)
-
[Publications] Tateisi,Y.: "Building an annotated corpus from biology research papers"Proceedings of COLING 2000 Workshop on Semantic Annotation and Intelligent Content. 28-34 (2000)