配分額 *注記 |
14,000千円 (直接経費: 14,000千円)
2002年度: 3,600千円 (直接経費: 3,600千円)
2001年度: 3,600千円 (直接経費: 3,600千円)
2000年度: 6,800千円 (直接経費: 6,800千円)
|
研究概要 |
1980年中ばから盛んに研究されているコーパスに基づく自然言語処理ではコーパスなどの言語資源が重要な役割をはたす.本研究では,そのような言語資源の中でも最近特に重要性が増している構文木付きのコーパスを作成・管理するためのシステムについて研究をおこなった. 平成12年度は,コーパスに構文構造を付与するアノテーションツールを作成した.このツールは既に我々の研究グループで開発しているパーザと協調して動作し,パーザの出力をユーザに提示する.ユーザはインタラクティブにツールを操作して,正しい構文構造を選択できる.このツールの特徴的な点はどのような順序で部分構造のあいまい性を解消すれば効率的に文全体の構造を決定できるかをユーザに提示する機能を有している点である. 平成13年度は,すでに公開されているEDRコーパスから文法を自動抽出し,その文法をできるだけあいまい性が少なくなるように改良する研究をおこなった.EDRコーパスは現在利用可能な日本語のコーパスの中でも最大規模を誇るが,コーパスに付与されている構文構造に対応する文法が存在しないという問題がある.そこで,まず文法を抽出し,それを使いながらコーパスを解析し,その結果をもとに文法を改善するという作業を繰り換えし,文法を洗練した.その際に文法のどのような規則があいまい性を増大させているかを定量的に分析しながら文法を洗練する手法を開発した. また,構文構造を同定する上で有用な意味知識の構築に関する研究もおこなった.意味知識の構築は一般に困難であり,知識をゼロから構築するのは現実的ではない.したがって,既存の意味知識を組み合わせて知識を拡大するアプローチをとった.具体的には国語辞典の語義とシソーラスの意味クラスの対応付けを自動的にとる手法を提案し,その有効性を実験によって確認した. 平成14年度は,前年度に引き続き,文法の洗練をおこなうとともに,初年度に開発したツールを用いて,EDRコーパスの中から約20,000文を選び,これに平成13年度から開発をしている文法に基づいて構文構造を付与した.この作業を通して初年度に開発したツールの有用性を実証した. また,構文構造を付与したコーパスを管理するために,関係データベースシステムを用いて柔軟な検索を可能にする管理システムを開発した.このシステムにより様々な部分構造を検索要求とする検索を柔軟におこなうことができる.
|