Research Abstract |
自然言語文の構文解析における最大の問題は,構文構造の暖昧さの絞込みである.この絞込み手法として,(1)表層的な手がかりに基づくヒューリスティック (2)共起制約あるいは共起性の大小に基づく手法 (a)名詞の粗い意味分類を用いた共起制約 (b)類似用例に基づく共起性 がこれまで研究されてきている。(1)の精度は非常に高く,90%を超える.表層的な手がかりがない場合は共起性に基づかざるを得ないが,(2)の手法は有効であるものの全体的な精度を落とす原因となっている.(a)に関しては,意味分類が粗ければ精度は悪く,しかし,細かい意味分類を用いた共起制約を人手で記述するのは困難である.(b)に関しては,用例さえ十分に多ければかなりの精度が期待できるものの,逆に用例が多い場合は,入力と用例との類似度計算に時間を要し,処理速度の点で問題となる. 本研究は,自然言語文の構文構造の曖昧さの絞込み精度の向上を目的として,(2)で用いる共起性を言語コーパスから得られる共起データに基づき推定する手法の開発を行った.提案する推定法では,語をユークリッド空間上の点(ワードベクトル)に対応させ,語wが機能語fで語w'に係る係りやすさ(共起性)を,wのワードベクトルと<f, w>に依存した重みベクトルとの内積とする重回帰モデルで表現する.通常の重回帰分析と異なり,本手法は, ・回帰式に現れる重みベクトルだけでなく,説明変量であるワードベクトルも学習する, ・モデルの学習では,観測された共起性を持つ語の組の(正例)のみを用いており,共起性を持たないという負例は必要ない(共起が観測されない全ての組を信頼性の低い負例として扱う) のが特徴である. EDRコーパスより抽出した、名詞と<助詞,動詞>との共起データ(延べ約21万,名詞異なり数約1万6千,<助詞,動詞>異なり数約1万4千)に基づき,名詞と<助詞,動詞>との共起性推定を行い,この推定結果を用いた構文構造の曖昧さ解消実験を行った.(2)(b)の手法に比べ若干の精度向上しか確認できなかったものの,解析に要する時間を考慮するならば十分有効と考えられる.
|