1999 年度実績報告書

MSLR法における未知語処理に関する研究

研究課題

研究課題/領域番号	11780254
研究機関	東京工業大学
研究代表者	白井清昭東京工業大学, 大学院・情報理工学研究科, 助手 (30302970)
キーワード	形態素解析 / 構文解析 / MSLR法 / 未知語処理 / LR表
研究概要	本研究課題では,MSLR法において今までほとんど考慮されていなかった未知語処理を行うことを目的とする.MSLR法とは,形態素解析と構文解析を同時に行うための構文解析手法のひとつである一般化LR法を拡張した手法である。まず,MSLR法を実装した既存のMSLRパーザを用いて例文の形態素・構文解析を行い,辞書引きに失敗し,何らかの未知語処理が必要となる事例を調査した.その結果,未知語のほとんどは名詞であること,未知語を構成する文字種としてはカタカナが多いことなどを確認した.また,辞書に登録されている単語が全く存在しない場合だけでなく,辞書に登録されている単語が存在しても,それが入力文を構成する単語として適切でない場合があり,そのような場合にも未知語処理が必要であることがわかった.これにより,辞書引きに失敗した時のみ未知語処理を行うだけでは不十分であり,辞書引きに成功した場合でも,未知語を解析結果の候補として加える必要があることがわかった. 辞書引きに成功したか否かに関わらず未知語処理を行うことは,解析結果の候補が爆発的に増大することが予想される。そこで,LR表に記述されている構文的な制約を利用し,未知語処理に伴なう解析コストを削減する手法を考案した.MSLR法においては,LR表に記述された状態番号と先読み記号によって次の解析動作を決定するが,未知語は全て名詞であると仮定し,先読み記号として名詞が現われない状態のときには未知語処理を行わないことにした.この手法の有効性を確認するために,いくつかの日本語解析用文法からLR表を作成し,先読み記号として名詞が現われない状態数の割合を調べたところ,20%〜40%であることがわかった。この結果,MSLR法における未知語処理のコスト削減にLR表の先読み記号の情報を利用することはある程度有効であるとの見込みを得た.