1998 年度実績報告書

自己増殖型言語知識ベース構築技術に関する研究

研究課題

研究課題/領域番号	09308009
研究機関	東京工業大学
研究代表者	田中穂積東京工業大学, 大学院・情報理工学研究科, 教授 (80163567)
研究分担者	白井清昭東京工業大学, 大学院・情報理工学研究科, 助手 (30302970) 徳永健伸東京工業大学, 大学院・情報理工学研究科, 助教授 (20197875)
キーワード	自然言語処理 / 言語知識獲得 / MSLR構文解析法 / 確率一般化LRモデル / 形態素解析 / 構文解析
研究概要	本研究では,自然言語処理技術の中で技術的に成熟した形態素解析技術・構文解析技術と,既存の言語知識ベースとを用いて,文書から様々な種類の言語知識ベースを自己増殖的に構築する研究を行っている.本年度は,特に構文木付きコーパスの自己増殖的な構築に焦点を当てて研究を行った. まず,大規模な構文木付きコーパスを構築するためには形態素・構文解析を高速に行うパーザが必要なことから,前年度までに開発を進めてきたMSLRパーザのさらなる高速化を行った.例えば,MSLRパーザの辞書引き部分にsuffix arrayの手法を導入することにより,辞書引き用インデックの作成が大幅に高速化され,また形態素・構文解析に要する時間を短縮した.このMSLRパーザは,汎用の形態素・構文解析ツールとして本研究以外にも利用することができるため,フリーのソフトとして以下のURLにて公開した. http://tanaka-www.cs.titech.ac.jp/pub/mslr/index.html 次に,高速化されたMSLRパーザを用いて,構文木付きコーパスを自己増殖的に構築する手法の有効性を検証する実験を行った.本研究で提案する手法とは,テキストを形態素・構文解析し,得られた複数の解析結果の候補の中からテキストに付与するべき最も正しいと思われる候補を確率一般化LRモデル(PGLRモデル)によって選別する.この際,初期のPGLRモデルは既存の構文木付きコーパスから学習する.また,PGLRモデルによるテキストへの構文木の付与と,付与された構文木によるPGLRモデルの再学習を繰り返すことにより,テキストに新たに付与する構文木の精度を向上させる.検証実験の結果,以上の手法が構文木付きコーパスの自己増殖的な構築に有効であることを確認した.また,この検証実験の詳細を以下の学会で報告した. 白井清昭,今井宏樹,徳永健伸,田中穂積.PGLR法を用いた構文木付きコーパスの自動構築.情報処理学会第57回全国大会講演論文集第2分冊,pp.213-214,1998.