2010 Fiscal Year Annual Research Report
係り受けや照応・省略などの高次言語情報を用いた確率的言語モデル
Project/Area Number |
20680008
|
Research Institution | Kyoto University |
Principal Investigator |
森 信介 京都大学, 学術情報メディアセンター, 准教授 (90456773)
|
Keywords | 点予測 / 部分的アノテーション / 能動学習 / 単語分割 / 係り受け解析 / 仮名漢字変換 / 確率的単語分割 / 確率的タグ付与 |
Research Abstract |
まず、点予測による手法を提案し、自動単語分割の精度向上を実現した。実験では、単語と品詞として国立国語研究所が提案する定義を採用し、その基準に沿う『現代日本語書き言葉均衡コーパス』を用いて有効性を示した。特に、部分的アノテーションコーパスの概念を提案し、これを含むさまざまな言語資源からの学習が可能であることを示し、安価かつ高速の分野適応が実現した。点予測による手法を品詞推定や読み推定にも適用し、同様の有効性が実現できることを示した。この成果は、「言語処理ソフトウェアKyTea」として公開しており、多数に利用されている。また、分野適応のための能動学習ツールを構築し、公開している。これらは、東北大震災の安否情報の言語処理に使われた。 高精度の自動係り受け解析を実現するために、単語境界情報と係り受け情報が付与されたコーパスを辞書の例文と経済新聞記事から作成した。それぞれ、13,000文と10,025文からなる。点予測による係り受け解析を実現し、これらのコーパスを用いて既存手法と同等の精度が得られることを示した。また、係り受け情報が付与されたコーパスから、構造情報を利用する確率的言語モデルを構築し、予測力における有効性を確認した。 また、確率的なアノテーションを提案し、確率的単語分割コーパスや確率的読み付与コーパスからの言語モデルの作成を提案し、新聞やウェブのデータから大規模な言語モデルを作成し、音声認識や仮名漢字変換への応用を行った。仮名漢字変換については、エンジンをフリーのソフトウェアとして公開している. 0言語処理ソフトウェアKyTea:http://www.phontron.com/kytea/index-ja.html 0仮名漢字変換ソフトウェアSIMPLE:http://plata.ar.media.kyoto-u.ac.jp/mori/research/topics/KKC/
|