2001 年度実績報告書

構文木修正ツールの開発,構文木付きコーパスの分散型保守・管理システムの試作

研究課題

研究課題/領域番号	12480082
研究機関	東京工業大学
研究代表者	徳永健伸東京工業大学, 大学院・情報理工学研究科, 助教授 (20197875)
研究分担者	田中穂積東京工業大学, 大学院・情報理工学研究科, 教授 (80163567)
キーワード	自然言語処理 / 大規模コーパス / 大規模日本語文法 / 構文解析
研究概要	自然言語解析用の大規模な文法は実用的な応用を考えると必要不可欠なものであるが,これを人手で作成するのはコストがかかる.このために,構文構造付きコーパスから大規模な文法規則を抽出する研究がおこなわれてきた.たとえば,Penn Treebankの構文構造付きコーパスから抽出した英語の文法は,人手で作成した文法よりも,特に単語数の多い文において精度のよい解析ができることが知られている.日本語ではPenn Treebankのような大規模な構文構造付きコーパスが少なく,このような試みが必ずしも成功しているとはいえない.たとえ時間とコストをかけて大規模なコーパスが作成されたとしても,人手で作成したコーパスには誤りが多く,また構造の一貫性を保つのが難しい.そのため,コーパスから抽出した文法規則を用いて解析をおこなうと,コーパス作成者の意図しない構文解析木を生成し,解析結果の曖昧性を無意味に増大させることとなる.本年度は,この問題を解決する方法について研究をおこなった.そのために,無意味な曖昧性を出す原因となる部分を分析し,曖昧性を極力抑えられるようにコーパスや文法を変更する手法について検討した.まず,人手で作成した構文木付きコーパスから抽出した文法を使用して構文解析した際に生じる曖昧性を抑えるために,曖昧性を無意味に増大させる部分を体系的に発見し,それをどのように変更すべきかについての指針について考察し,その指針に基づいてコーパスから抽出した文法を実際に変更し,文法を開発した.そして,開発した文法を使用して構文解析すると解析結果の曖昧性を効果的に抑えられることを実験的に示した.以上の結果から,大規模なコーパスから抽出した文法規則を,提案手法に基づいて変更することにより,大規模であるにも関わらず構文解析結果の曖昧性を抑え,実用的な日本語文法を構築することが十分可能であるとの見通しを得た.

研究成果

(4件)

すべてその他

すべて文献書誌 (4件)

[文献書誌] 徳永健伸, 阿辺川武: "統計情報による連体修飾節の解析"日本語学. 20・12. 20-27 (2001)
[文献書誌] Tokunaga T., Syotu Y., TAnaka H., Shirai K.: "Integration of heterogeneous language resources"Proc. of 6th ULPRS. 135-142 (2001)
[文献書誌] 木村健司, 徳永健伸, 田中穂積: "漢字インデックスを利用したパラフレーズの抽出"自然言語処理研究会予稿集. 2001・112. 39-45 (2001)
[文献書誌] 八木豊, 橋本泰一, 美野秀弥, 徳永健伸, 田中穂積: "決定リストにおける規則の適用順序に関する考察"自然言語処理研究会予稿集. 2001・112. 21-26 (2001)