研究概要 |
自然言語解析用の大規模な文法は実用的な応用を考えると必要不可欠なものであるが,これを人手で作成するのはコストがかかる.このために,構文構造付きコーパスから大規模な文法規則を抽出する研究がおこなわれてきた.たとえば,Penn Treebankの構文構造付きコーパスから抽出した英語の文法は,人手で作成した文法よりも,特に単語数の多い文において精度のよい解析ができることが知られている.日本語ではPenn Treebankのような大規模な構文構造付きコーパスが少なく,このような試みが必ずしも成功しているとはいえない.たとえ時間とコストをかけて大規模なコーパスが作成されたとしても,人手で作成したコーパスには誤りが多く,また構造の一貫性を保つのが難しい.そのため,コーパスから抽出した文法規則を用いて解析をおこなうと,コーパス作成者の意図しない構文解析木を生成し,解析結果の曖昧性を無意味に増大させることとなる.本年度は,この問題を解決する方法について研究をおこなった.そのために,無意味な曖昧性を出す原因となる部分を分析し,曖昧性を極力抑えられるようにコーパスや文法を変更する手法について検討した.まず,人手で作成した構文木付きコーパスから抽出した文法を使用して構文解析した際に生じる曖昧性を抑えるために,曖昧性を無意味に増大させる部分を体系的に発見し,それをどのように変更すべきかについての指針について考察し,その指針に基づいてコーパスから抽出した文法を実際に変更し,文法を開発した.そして,開発した文法を使用して構文解析すると解析結果の曖昧性を効果的に抑えられることを実験的に示した.以上の結果から,大規模なコーパスから抽出した文法規則を,提案手法に基づいて変更することにより,大規模であるにも関わらず構文解析結果の曖昧性を抑え,実用的な日本語文法を構築することが十分可能であるとの見通しを得た.
|