MSLR法における未知語処理に関する研究

研究課題

研究課題/領域番号	11780254
研究種目	奨励研究(A)
配分区分	補助金
研究分野	知能情報学
研究機関	東京工業大学
研究代表者	白井清昭東京工業大学, 大学院・情報理工学研究科, 助手 (30302970)
研究期間 (年度)	1999 – 2000
研究課題ステータス	完了 (2000年度)
配分額 *注記	2,200千円 (直接経費: 2,200千円) 2000年度: 800千円 (直接経費: 800千円) 1999年度: 1,400千円 (直接経費: 1,400千円)
キーワード	MSLR法 / 形態素解析 / 構文解析 / 未知語処理 / LR表
研究概要	本研究課題では,MSLR法において今までほとんど考慮されていなかった未知語処理を行うことを目的とする.MSLR法とは,形態素解析と構文解析を同時に行うために構文解析手法のひとつである一般化LR法を拡張した手法である. MSLR法における未知語処理で一番問題となるのは,未知語の境界を認定することである.ひらがな,カタカナなどの文字種が異なるところに未知語の境界がある場合は,未知語の境界を認定することは容易である.しかし,「カヤぶきの屋根」において,「カヤぶき」が未知語であるように,未知語の境界の前後の文字種が同じ場合は,その認定は難しい.本年度は,EDRコーパス中に含まれるEDR日本語単語辞書に登録されていない単語を未知語とみなし,その境界の前後の文字種が同じであるものを調査し,その特徴を分析した. まず,未知語の境界の前後の文字種がともにカタカナ,記号,数字となる未知語はほとんど見られなかった.また,未知語の境界の前後の文字種がともにひらがなの場合,未知語の前には助詞,助動詞「た」,活用語の終止形が,未知語の後には助詞,助動詞「だ」が現われることがほとんどであることがわかった.したがって,入力文中にひらがなが連続している場合,全ての位置を未知語の境界の候補として解析する代わりに,上記の条件を満たず位置のみを未知語の境界の候補とすれば,解析効率を大幅に向上させることができる.MSLR法においては,未知語の前の単語の品詞情報はスタックトップから,未知語の後の単語の品詞情報は先読み記号から読み取れるので,提案手法は容易に実装することができる.

報告書

(2件)

2000 実績報告書
1999 実績報告書