研究概要 |
語彙の共起性は自然言語処理における基本的な知識の一つであり,これを利用して自然言語文の統語的曖昧さや多義語の語義の曖昧さを解消することができる.しかし,共起し得る語の組は膨大であり,大規模な構文解析済みコーパスを用いたとしても,共起可能な語の組を網羅的に収集することは困難である.そこで,本研究では,構文解析済みのコーパスから得られる共起データを学習データとして,語の共起性を推定する手法を開発した.提案する推定法では,語を実ベクトル(ワードベクトル)に対応させ,語wが関係fで語w'に係る係りやすさの程度(共起性)を,wのワードベクトルと<f,w'>に対応した重みベクトルとの内積とする重回帰モデルで表現する.通常の重回帰分析と異なり,重みベクトルだけではなく,説明変量であるワードベクトルも同時に学習すること,モデルの学習では,学習データに存在しない語の組に対する共起を信頼度付の擬似的な負例(共起性なし)として扱っていることが,本手法の特徴である. EDRコーパスから抽出した共起データを学習データとして,名詞と助詞・動詞の共起性推定実験を行い,推定された共起性を次の2通りの方法で評価したところ,良好な結果を得た. 1.学習データには存在しないが,他のコーパスで共起が観測された語の組に対する推定された共起性の値の分布の調査による直接的な評価, 2.統語的曖昧さ解消実験による間接的な評価.
|