2009 Fiscal Year Annual Research Report
係り受けや照応・省略などの高次言語情報を用いた確率的言語モデル
Project/Area Number |
20680008
|
Research Institution | Kyoto University |
Principal Investigator |
森 信介 Kyoto University, 学術情報メディアセンター, 准教授 (90456773)
|
Keywords | 確率的言語モデル / 係り受け / 照応・省略 / 認知科学 / 音声認識 |
Research Abstract |
平成21年度では、前年度に単語境界情報と単語間の係り受け情報を付与した辞書の例文や新聞記事の文に仮名漢字変換のや読み推定を目的として読みを付与し、分析・実験のためのコーパスを作成した。次に、確率的言語モデルを用いる読み推定や仮名漢字変換システムを構築した。 (1) 読み情報などの部分的付与 前年度に作成した単語分割済みコーパスの各単語に読みを付与した。合計の文数は、26、418であり、文字数は725、354である。また、1、000文の医療テキストに対して単語境界情報や読みを付与し、分野適応の実験ができるようにした。また、専門用語辞書の見出し語や専門分野の文に読みや単語境界の情報を部分的に付与することも行った。これにより、部分的なアノテーションからの学習の実験が行なえるようにした。 (2) 部分的なアノテーションからの学習する自動単語分割器や読み推定器の学習 実用的な自然言語処理を考えると、分野適応が非常に重要である。これを速やかに実現するために部分的なアノテーションからの学習を提案した。この提案に沿って、単語境界が文の一部にのみ付与されたコーパスや一部の単語にのみ読みが付与されたコーパスから自動単語分割器や読み推定器を提案し実装した。さらに、独自に準備した専門分野のテキストに対する言語処理において精度向上を確認した。これらは、フリーソフトウェア-として公開している。
|
Research Products
(9 results)