2002 Fiscal Year Annual Research Report

不完全データに基づく数量化II類と語の共起性判定への応用

Research Project

Project/Area Number	13680450
Research Institution	Kyushu University
Principal Investigator	冨浦洋一九州大学, 大学院・システム情報科学研究院, 助教授 (10217523)
Co-Investigator(Kenkyū-buntansha)	田中省作九州大学, 情報基盤センター, 助手 (00325549) 日高達九州大学, 大学院・システム情報科学研究院, 教授 (30037931)
Keywords	語彙共起性 / 構文構造の暖昧さ解消 / 重回帰モデル / 語のベクトル表現 / 知識獲得 / 構文解析 / 自然言語処理
Research Abstract	自然言語文の構文解析における最大の問題は,構文構造の暖昧さの絞込みである.この絞込み手法として,(1)表層的な手がかりに基づくヒューリスティック (2)共起制約あるいは共起性の大小に基づく手法 (a)名詞の粗い意味分類を用いた共起制約 (b)類似用例に基づく共起性がこれまで研究されてきている。(1)の精度は非常に高く,90%を超える.表層的な手がかりがない場合は共起性に基づかざるを得ないが,(2)の手法は有効であるものの全体的な精度を落とす原因となっている.(a)に関しては,意味分類が粗ければ精度は悪く,しかし,細かい意味分類を用いた共起制約を人手で記述するのは困難である.(b)に関しては,用例さえ十分に多ければかなりの精度が期待できるものの,逆に用例が多い場合は,入力と用例との類似度計算に時間を要し,処理速度の点で問題となる. 本研究は,自然言語文の構文構造の曖昧さの絞込み精度の向上を目的として,(2)で用いる共起性を言語コーパスから得られる共起データに基づき推定する手法の開発を行った.提案する推定法では,語をユークリッド空間上の点(ワードベクトル)に対応させ,語wが機能語fで語w'に係る係りやすさ(共起性)を,wのワードベクトルと<f, w>に依存した重みベクトルとの内積とする重回帰モデルで表現する.通常の重回帰分析と異なり,本手法は, ・回帰式に現れる重みベクトルだけでなく,説明変量であるワードベクトルも学習する, ・モデルの学習では,観測された共起性を持つ語の組の(正例)のみを用いており,共起性を持たないという負例は必要ない(共起が観測されない全ての組を信頼性の低い負例として扱う) のが特徴である. EDRコーパスより抽出した、名詞と<助詞,動詞>との共起データ(延べ約21万,名詞異なり数約1万6千,<助詞,動詞>異なり数約1万4千)に基づき,名詞と<助詞,動詞>との共起性推定を行い,この推定結果を用いた構文構造の曖昧さ解消実験を行った.(2)(b)の手法に比べ若干の精度向上しか確認できなかったものの,解析に要する時間を考慮するならば十分有効と考えられる.

Research Products
(4 results)

All Publications (4 results)

[Publications] 見戸直樹: "重回帰分析による係り受けの曖昧さ解消"電気関係学会九州支部第55回連合大会予稿集. 623 (2002)
[Publications] 緒方伸輔: "語彙共起性判定における学習・評価データに関する考察"電気関係学会九州支部第55回連合大会予稿集. 626 (2002)
[Publications] 冨浦洋一: "共起データに基づく名詞のn次元空間への配置"情報処理学会自然言語処理研究会. NL-154(未定). (2003)
[Publications] 冨浦洋一: "言語コーパスからの語の共起性の推定と統語的曖昧さ解消実験による評"言語処理学会第9回年次大会予稿集. (未定). (2003)