• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

1999 Fiscal Year Annual Research Report

自己増殖型言語知識ベース構築技術に関する研究

Research Project

Project/Area Number 09308009
Research InstitutionTokyo Institute of Technology

Principal Investigator

田中 穂積  東京工業大学, 大学院・情報理工学研究科, 教授 (80163567)

Co-Investigator(Kenkyū-buntansha) 白井 清昭  東京工業大学, 大学院・情報理工学研究科, 助手 (30302970)
徳永 健伸  東京工業大学, 大学院・情報理工学研究科, 助教授 (20197875)
Keywords言語知識ベース / 自然言語処理 / 注釈付きコーパス / 形態素解析 / 構文解析
Research Abstract

本研究課題では、自然言語処理技術の向上に必要不可欠な言語知識ベースを自動構築する技術を開発することを目的としている。本年度は、自動獲得の対象となる言語知識ベースとして文節間の係り受け構造が付与されたコーパスを考え、この自動獲得技術を中心に研究をすすめてきた。
まず、プレーンテキストに対して形態素・構文解析を行い、各例文に対して文節間の係り受け構造を自動的に付与した。形態素・構文解析を行うツールとしては、前年度までに開発をすすめてきたMSLRパーザを使用した。また、文節間の係り受け構造が一意に決まらない場合には、(1)文節数が最も少ない構造を優先する、(2)係り受け関係にある文節間の距離の総和が最も少ない構造を優先する、などのヒューリスティクスを用いて、例文に付与する係り受け構造を一意に決定した。次に、プレーンテキストの形態素・構文解析をやり直し、文節間の係り受け構造をもう一度自動的に付与した。この際、文節間の係り受け構造が一意に決まらない場合には、先に例文に自動的に付与した係り受け構造から学習されたPGLRモデル、ならびに別の言語資源から学習された単語の共起頻度などの統計情報を利用して、最も正しいと思われる構造を選択した。このように、形態素・構文解析による自動的な文節の係り受け構造の付与と、それを用いたPGLRモデルの学習を反復することにより、コーパスに付与する文節間の係り受け構造の精度を向上させることができる。評価実験の結果、本研究課題で研究を進めてきた言語知識ベースを自動構築する技術が、文節の係り受け構造が付与されたコーパスを自動構築する際にも有効であることを確認した。

URL: 

Published: 2001-10-23   Modified: 2016-04-21  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi