2002 Fiscal Year Annual Research Report
大規模構文木付きコーパスの作成とその保守・管理システムに関する研究
Project/Area Number |
12480082
|
Research Institution | Tokyo Institute of Technology |
Principal Investigator |
徳永 健伸 東京工業大学, 大学院・情報理工学研究科, 助教授 (20197875)
|
Co-Investigator(Kenkyū-buntansha) |
田中 穂積 東京工業大学, 大学院・情報理工学研究科, 教授 (80163567)
|
Keywords | 自然言語処理 / 大規模コーパス / 日本語文法 / 構文解析 / 構文木付きコーパス / 統計的自然言語処理 |
Research Abstract |
人間が構文構造を認識する過程でコンピュータの処理と決定的に違うのは意味的・談話的,さらには世界知識までも使っている点である.現時点ではこれらのすべての情報をコンピュータによって利用することが難しいが,人手で構文構造を付与するときに意味情報は非常に有用である.今年度は,このような観点から人間が言語表現を解釈するのに有用な意味情報の整備をおこなった.意味的な知識の構築は文法の構築以上に困難であり,ゼロから構築するのは現実的ではないため,既存の知識を組み合わせて用い,知識を拡大するアプローチを取った. 構造を付与する過程において,また,構造を付与したコーパスを利用する観点からすると,コーパス中から任意の構文構造がどのような文脈で利用されているかを効率よく検索できることが必要である.今年度はこのような観点から構文構造付きのコーパスを様々な検索要求に対して効率よく検索するための枠組について研究をおこなった. たとえ時間とコストをかけて大規模なコーパスが作成されたとしても,人手で作成したコーパスには誤りが多く,また構造の一貫性を保つのが難しい.そのため,コーパスから抽出した文法規則を用いて解析をおこなうと,コーパス作成者の意図しない構文解析木を生成し,解析結果の暖昧性を無意味に増大させることとなる. 今年度も昨年度に引き続き,この問題を解決する方法について研究をおこなった.そのために,無意味な暖昧性を出す原因となる部分を分析し,暖昧性を極力抑えられるようにコーパスや文法を変更する手法について検討した.まず,人手で作成した構文木付きコーパスから抽出した文法を使用して構文解析した際に生じる暖昧性を抑えるために,暖昧性を無意味に増大させる部分を体系的に発見し,それをどのように変更すべきかについての指針について考察し,その指針に基づいてコーパスから抽出した文法を実際に変更し,文法を開発した.そして,開発した文法を使用して構文解析すると解析結果の暖昧性を効果的に抑えられることを実験的に示した. 本年度は,すでに公開されているEDRコーパスから抽出した文法を改良し,この文法に基づいてEDRコーパス中の約20,000文について構文構造を付与した.この際に初年度に作成した構文木付与のための支援システムを用い,実作業上,このシステムが有用であることを実証した.
|
Research Products
(4 results)
-
[Publications] 田中穂積, 徳永健伸: "コンピュータが拓く新しい言語世界"月刊言語. 31・3. 16-22 (2002)
-
[Publications] 野呂智哉, 白井清昭, 徳永健伸, 田中穂積: "大規模日本語文法の開発-事例研究"情報処理学会自然言語処理研究会. 2002・66. 149-156 (2002)
-
[Publications] 野呂智哉, 岡崎篤, 徳永健伸, 田中穂積: "大規模日本語文法構築に関する一考察"言語処理学会第8回年次大会予稿集. 387-390 (2002)
-
[Publications] 美野秀弥, 橋本泰一, 徳永健伸, 田中穂積: "決定リストを利用した形容動詞の修飾先の決定"言語処理学会第8回年次大会予稿集. 411-414 (2002)