Research Project
Grant-in-Aid for JSPS Fellows
高次の生物知識の抽出と体系化を行うためには、適切な意味タグが付与されたコーパスや最低限の専門用語を登録した辞書など言語リソースの整備が不可欠であるが、これまでに一般に公開された質の良いこれらのリソースは存在しない。そこで、本研究ではこういったリソースの整備を行い、ゲノム情報研究分野の共有資源として公開することを一つの目的としてきた。また、専門用語の自動認識や構文解析技術などの自然言語処理の基礎技術を用いると共に大規模コーパスからの学習を行うことで、これまでの自然言語処理研究の対象とされてきた新聞記事などの分野に比べて格段に難易度の高いゲノム・サイエンス分野のテキストに適用できるような、統合的なシステムの開発を行ってきた。最終年度にあたる本年度は、以下の項目を中心として研究を実施した。1.リソースの整備:現在公開しているタグ付コーパスのエラー、特に、タグ境界のエラーや改行エラー等の構造的なエラーを中心に修正し、公開した。また、品詞や構文木などの付加的な情報を加えていくことにより質的な向上を図ると共に、生体内でのイベントに関する情報を抽出することを目的として、テキスト中に出現するイベント情報の試験的なマークアップを開始した。2.オントロジーの拡張:タグ付コーパス中の専門用語を整理することにより分野の概念を再構築し、オントロジーの拡張を行った。また、コーパス中での言語現象を解析することにより、生体内でのイベントなど更に高次の知識概念の体系化を試みた。3.統合システムの構築:これまでに作成してきたリソースやツール、自然言語処理プログラム等を効率よく利用するためのインターフェースとして、総合システムをデザインした。
All Other
All Publications (4 results)