平成20年度では、辞書の例文や新聞記事の文に、単語境界情報と単語間の係り受け情報を付与し、分析・実験のためのコーパスを作成した。次に、文字列から係り受けまでの言語現象を対象とする構造的言語モデルを構築した。 (1) 単語境界情報と単語間の係り受け情報の付与 まず、単語境界情報や単語間の係り受け情報を付与するためのツールを作成した。次にこれらを用いて、辞書の例文と新聞記事の文に情報付与を行なった。合計の文数は、26、418であり、文字数は725、354である。この過程において、単語分割情報が部分的に付与されたコーパスからの自動単語分割器を構築し、初期の単語分割情報の自動生成に用いた。また、各単語には読みを付与し、仮名漢字変換や読み推定の実験が行なえるようにした。 (2) 構造的言語モデルの構築及び評価 単語間の係り受け情報を考慮して単語予測を行なう構造的言語モデルを考案し作成した。構造的言語モデルは、履歴を単語列としてではなく、係り受けという木構造を持つと考えて次の単語を予測する。これを係り受け情報の付与されたゴーパスに対して適用し、予測力の測定を行なった。その結果、従来の単語列を仮定する言語モデルとの比較において一定の改善が見られた。また、構造的言語モデルを仮名漢字変換や読み推定などの実際のアプリケーションに適用し、精度評価などの実験を行なった。その結果、従来の単語列を仮定する言語モデルとの比較において一定の改善が見られた。
|