研究概要 |
一年目(平成21年度)の結果は、有用性の高いアプリケーションを構築するためには、内容語だけでなく機能語も変換の対象にする必要があることを示唆している。よって、今年度は内容語に加え、文脈に適した機能語を選択する手法の開発に注力した。特に、論文のようなフォーマルな表現に言い換える手法を考案した。これは、文書校正などの応用先を持つ。まず、同じ意味を持つ機能語を準備する必要があったが、これについては既存の言語資源である日本語機能表現辞書「つつじ」(下記)から抽出した。そして、同じ意味を持つ機能語集合の中から適切なものを選ぶ分類問題を考えた。ここでは、従来手法で使用された周囲に出現した単語の情報に加え、機能語の難易度と文体を素性として用いることで性能を向上させる工夫を行った。難易度と文体の情報は「つつじ」に記述されているものを用いた。また、内容語については難易度情報と文体情報が存在しないが、すでに難易度及び文体情報がわかっている機能語との共起情報を用いて内容語にも難易度情報及び文体情報を付加した。共起情報はインターネットから獲得することで、被覆率を高めることに成功した。この難易度情報及び文体情報を用いることで内容語の選択もより正しく行うことができるようになった。実際に論文データで実験を行い、手法を定量的に評価した。参考文献:松吉ら,日本語機能表現辞書の編纂.自然言語処理,vol.15,no.2,pp.75-99,2007.
|