研究概要 |
本研究課題では,MSLR法において今までほとんど考慮されていなかった未知語処理を行うことを目的とする.MSLR法とは,形態素解析と構文解析を同時に行うために構文解析手法のひとつである一般化LR法を拡張した手法である. MSLR法における未知語処理で一番問題となるのは,未知語の境界を認定することである.ひらがな,カタカナなどの文字種が異なるところに未知語の境界がある場合は,未知語の境界を認定することは容易である.しかし,「カヤぶきの屋根」において,「カヤぶき」が未知語であるように,未知語の境界の前後の文字種が同じ場合は,その認定は難しい.本年度は,EDRコーパス中に含まれるEDR日本語単語辞書に登録されていない単語を未知語とみなし,その境界の前後の文字種が同じであるものを調査し,その特徴を分析した. まず,未知語の境界の前後の文字種がともにカタカナ,記号,数字となる未知語はほとんど見られなかった.また,未知語の境界の前後の文字種がともにひらがなの場合,未知語の前には助詞,助動詞「た」,活用語の終止形が,未知語の後には助詞,助動詞「だ」が現われることがほとんどであることがわかった.したがって,入力文中にひらがなが連続している場合,全ての位置を未知語の境界の候補として解析する代わりに,上記の条件を満たず位置のみを未知語の境界の候補とすれば,解析効率を大幅に向上させることができる.MSLR法においては,未知語の前の単語の品詞情報はスタックトップから,未知語の後の単語の品詞情報は先読み記号から読み取れるので,提案手法は容易に実装することができる.
|