2002 Fiscal Year Annual Research Report
医学・生物学分野のテキスト処理のための知識体系の構築に関する研究
Project/Area Number |
00J60402
|
Research Institution | The University of Tokyo |
Principal Investigator |
大田 朋子 東京大学, 医科学研究所, 特別研究員(PD)
|
Keywords | 自然言語処理 / 情報抽出 / 知識獲得 / オントロジー / タグ付きコーパス |
Research Abstract |
高次の生物知識の抽出と体系化を行うためには、適切な意味タグが付与されたコーパスや最低限の専門用語を登録した辞書など言語リソースの整備が不可欠であるが、これまでに一般に公開された質の良いこれらのリソースは存在しない。そこで、本研究ではこういったリソースの整備を行い、ゲノム情報研究分野の共有資源として公開することを一つの目的としてきた。また、専門用語の自動認識や構文解析技術などの自然言語処理の基礎技術を用いると共に大規模コーパスからの学習を行うことで、これまでの自然言語処理研究の対象とされてきた新聞記事などの分野に比べて格段に難易度の高いゲノム・サイエンス分野のテキストに適用できるような、統合的なシステムの開発を行ってきた。 最終年度にあたる本年度は、以下の項目を中心として研究を実施した。 1.リソースの整備:現在公開しているタグ付コーパスのエラー、特に、タグ境界のエラーや改行エラー等の構造的なエラーを中心に修正し、公開した。また、品詞や構文木などの付加的な情報を加えていくことにより質的な向上を図ると共に、生体内でのイベントに関する情報を抽出することを目的として、テキスト中に出現するイベント情報の試験的なマークアップを開始した。 2.オントロジーの拡張:タグ付コーパス中の専門用語を整理することにより分野の概念を再構築し、オントロジーの拡張を行った。また、コーパス中での言語現象を解析することにより、生体内でのイベントなど更に高次の知識概念の体系化を試みた。 3.統合システムの構築:これまでに作成してきたリソースやツール、自然言語処理プログラム等を効率よく利用するためのインターフェースとして、総合システムをデザインした。
|
Research Products
(4 results)
-
[Publications] Tomoko Ohta, et al.: "GENIA Corpus : an Annotated Research Abstract Corpus in Molecular Biology Domain"Proc. of the Human Language Technology Conference. (In press). (2002)
-
[Publications] Tomoko Ohta, et al.: "The GENIA Corpus : an Annotated Corpus in Molecular Biology Domain"Proc. of the 10th International Conference on Intelligent Systems for Molecular Biology (ISMB 2002) poster session. (2002)
-
[Publications] Jin-Dong Kim, et al.: "Copus-Based Approach to Biological Entity Recognition"Proc. of the Second Meeting of the Special Interest Group on Text Data Mining of ISMB 2002. (2002)
-
[Publications] Toma Erjavec, et al.: "Stretching the TEI : Converting the Genia Corpus"Proc. of the 4th International Workshop on Linguistically Interpreted Corpora (LINC-03). (In press). (2003)