2003 Fiscal Year Annual Research Report
不完全データに基づく数量化II類と語の共起性判定への応用
Project/Area Number |
13680450
|
Research Institution | Kyushu University |
Principal Investigator |
冨浦 洋一 九州大学, 大学院・システム情報科学研究院, 助教授 (10217523)
|
Co-Investigator(Kenkyū-buntansha) |
田中 省作 九州大学, 情報基盤センター, 助手 (00325549)
|
Keywords | 語の共起性 / 重回帰モデル / 語の実ベクトル表現 / 知識獲得 / 統語的曖昧さ解消 / 自然言語処理 |
Research Abstract |
語彙の共起性は自然言語処理における基本的な知識の一つであり,これを利用して自然言語文の統語的曖昧さや多義語の語義の曖昧さを解消することができる.しかし,共起し得る語の組は膨大であり,大規模な構文解析済みコーパスを用いたとしても,共起可能な語の組を網羅的に収集することは困難である.そこで,本研究では,構文解析済みのコーパスから得られる共起データを学習データとして,語の共起性を推定する手法を開発した.提案する推定法では,語を実ベクトル(ワードベクトル)に対応させ,語wが関係fで語w'に係る係りやすさの程度(共起性)を,wのワードベクトルと<f,w'>に対応した重みベクトルとの内積とする重回帰モデルで表現する.通常の重回帰分析と異なり,重みベクトルだけではなく,説明変量であるワードベクトルも同時に学習すること,モデルの学習では,学習データに存在しない語の組に対する共起を擬似的な負例(共起性なし)として扱っていることが,本手法の特徴である. 本年度行ったことは以下の2点である. 1.擬似的な負例<w,<f,w'>>の共起性の推定誤差に対する重みをwおよび<w,f'>の頻度と学習データサイズの関数として設定し,推定精度の向上を図った. 2.EDRコーパスから抽出した共起データを学習データとして,名詞と助詞・動詞の共起性推定実験を行い,推定された共起性を次の2通りの方法で評価し,良好な結果を得た. (1)学習データには存在しないが,他のコーパスで共起が観測された語の組に対する推定された共起性の値の分布の調査による直接的な評価,(2)統語的曖昧さ解消実験による間接的な評価.
|