配分額 *注記 |
22,700千円 (直接経費: 22,700千円)
1999年度: 2,600千円 (直接経費: 2,600千円)
1998年度: 7,200千円 (直接経費: 7,200千円)
1997年度: 12,900千円 (直接経費: 12,900千円)
|
研究概要 |
本研究課題では,自然言語処理に有用な言語知識ベースのうち,特に形態素情報・構文情報が付与されたコーパスに着目し,これを自己増殖的に構築する手法に関する研究を行った.その手法の概要は以下の通りである.まず,大量のテキストの形態素・構文解析を行い,コーパスに付与すべき形態素情報・構文情報を得る.次に,得られた形態素情報・構文情報から,形態素・構文解析に必要な知識や解析精度を向上させるための知識として,接続表と確立一般化LRモデルを学習する.接続表とは,品詞対の隣接可能性に関する知識であり,コーパス内に一度でも隣接して現われた品詞対は隣接可能,それ以外の品詞対は隣接不可能として,品詞タグ付きコーパスから自動的に獲得することができる.一方,確率一般化LRモデルは,解析結果の統計的な意味での正しさの尺度を構文木に与える確率モデルであり,そのパラメタはコーパスに付与された構文情報(構文木)から容易に学習することができる.さらに,得られた知識をもとに再びテキストの形態素・構文解析を行い,コーパスに付与するべき新たな形態素情報・構文情報を得る.このことを繰り返し行うことにより,形態素情報・構文情報が付与されたコーパスを自動的に作成する.実験の結果,本研究課題で提案する手法は,既存の形態素情報・構文情報が付与されたコーパスが存在するとき,その規模を拡大する際に,すなわち形態素・構文情報が付与された文の数を増やす際に有効に働くことが確かめられた.
|