• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 課題ページに戻る

2003 年度 実績報告書

不完全データに基づく数量化II類と語の共起性判定への応用

研究課題

研究課題/領域番号 13680450
研究機関九州大学

研究代表者

冨浦 洋一  九州大学, 大学院・システム情報科学研究院, 助教授 (10217523)

研究分担者 田中 省作  九州大学, 情報基盤センター, 助手 (00325549)
キーワード語の共起性 / 重回帰モデル / 語の実ベクトル表現 / 知識獲得 / 統語的曖昧さ解消 / 自然言語処理
研究概要

語彙の共起性は自然言語処理における基本的な知識の一つであり,これを利用して自然言語文の統語的曖昧さや多義語の語義の曖昧さを解消することができる.しかし,共起し得る語の組は膨大であり,大規模な構文解析済みコーパスを用いたとしても,共起可能な語の組を網羅的に収集することは困難である.そこで,本研究では,構文解析済みのコーパスから得られる共起データを学習データとして,語の共起性を推定する手法を開発した.提案する推定法では,語を実ベクトル(ワードベクトル)に対応させ,語wが関係fで語w'に係る係りやすさの程度(共起性)を,wのワードベクトルと<f,w'>に対応した重みベクトルとの内積とする重回帰モデルで表現する.通常の重回帰分析と異なり,重みベクトルだけではなく,説明変量であるワードベクトルも同時に学習すること,モデルの学習では,学習データに存在しない語の組に対する共起を擬似的な負例(共起性なし)として扱っていることが,本手法の特徴である.
本年度行ったことは以下の2点である.
1.擬似的な負例<w,<f,w'>>の共起性の推定誤差に対する重みをwおよび<w,f'>の頻度と学習データサイズの関数として設定し,推定精度の向上を図った.
2.EDRコーパスから抽出した共起データを学習データとして,名詞と助詞・動詞の共起性推定実験を行い,推定された共起性を次の2通りの方法で評価し,良好な結果を得た.
(1)学習データには存在しないが,他のコーパスで共起が観測された語の組に対する推定された共起性の値の分布の調査による直接的な評価,(2)統語的曖昧さ解消実験による間接的な評価.

  • 研究成果

    (2件)

すべて その他

すべて 文献書誌 (2件)

  • [文献書誌] 冨浦 洋一: "言語コーパスからの語の共起性の推定と統語的曖昧さ解消実験による評価"言語処理学会第9回年次大会. (2003)

  • [文献書誌] 冨浦 洋一: "言語コーパスからの語の共起性の推定"情報処理学会論文誌. 45・1. 324-332 (2004)

URL: 

公開日: 2005-04-18   更新日: 2016-04-21  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi