研究課題/領域番号 |
09308009
|
研究機関 | 東京工業大学 |
研究代表者 |
田中 穂積 東京工業大学, 大学院・情報理工学研究科, 教授 (80163567)
|
研究分担者 |
白井 清昭 東京工業大学, 大学院・情報理工学研究科, 助手 (30302970)
徳永 健伸 東京工業大学, 大学院・情報理工学研究科, 助教授 (20197875)
|
キーワード | 言語知識ベース / 自然言語処理 / 注釈付きコーパス / 形態素解析 / 構文解析 |
研究概要 |
本研究課題では、自然言語処理技術の向上に必要不可欠な言語知識ベースを自動構築する技術を開発することを目的としている。本年度は、自動獲得の対象となる言語知識ベースとして文節間の係り受け構造が付与されたコーパスを考え、この自動獲得技術を中心に研究をすすめてきた。 まず、プレーンテキストに対して形態素・構文解析を行い、各例文に対して文節間の係り受け構造を自動的に付与した。形態素・構文解析を行うツールとしては、前年度までに開発をすすめてきたMSLRパーザを使用した。また、文節間の係り受け構造が一意に決まらない場合には、(1)文節数が最も少ない構造を優先する、(2)係り受け関係にある文節間の距離の総和が最も少ない構造を優先する、などのヒューリスティクスを用いて、例文に付与する係り受け構造を一意に決定した。次に、プレーンテキストの形態素・構文解析をやり直し、文節間の係り受け構造をもう一度自動的に付与した。この際、文節間の係り受け構造が一意に決まらない場合には、先に例文に自動的に付与した係り受け構造から学習されたPGLRモデル、ならびに別の言語資源から学習された単語の共起頻度などの統計情報を利用して、最も正しいと思われる構造を選択した。このように、形態素・構文解析による自動的な文節の係り受け構造の付与と、それを用いたPGLRモデルの学習を反復することにより、コーパスに付与する文節間の係り受け構造の精度を向上させることができる。評価実験の結果、本研究課題で研究を進めてきた言語知識ベースを自動構築する技術が、文節の係り受け構造が付与されたコーパスを自動構築する際にも有効であることを確認した。
|