• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 前のページに戻る

統計的手法とヒューリスティックスを融合した自然言語文の統語的曖昧さ解消法

研究課題

研究課題/領域番号 11780280
研究種目

奨励研究(A)

配分区分補助金
研究分野 知能情報学
研究機関九州大学

研究代表者

冨浦 洋一  九州大学, 大学院・システム情報科学研究院, 助教授 (10217523)

研究期間 (年度) 1999 – 2000
研究課題ステータス 完了 (2000年度)
配分額 *注記
2,300千円 (直接経費: 2,300千円)
2000年度: 400千円 (直接経費: 400千円)
1999年度: 1,900千円 (直接経費: 1,900千円)
キーワード自然言語処理 / 構文解析 / 統語的曖昧さの絞り込み / 共起性 / 多変量解析 / ヒューリスティックス / 曖昧さの絞り込み / 確率文脈自由文法 / 仮説検定 / 言語コーパス
研究概要

どの単語がどの関係でどの単語に係り得るか(語の共起性)が十分に分かっているならば,この情報を利用して,自然言語文の統語的曖昧さを絞り込むことができる.しかし,共起可能な語の組は膨大で,数十万文に及ぶ大規模な構文解析済み言語コーパスを用いたとしても,共起可能な語の組を十分に収集することは困難である.今年度は,判別分析の手法を拡張し,構文解析済み言語コーパスから得られる語の共起データを学習データとして,語の共起性を推定する手法を開発し,小規模な推定実験を行なった.本手法は,語の上位-下位関係から得られるヒューリスティックスなど,語の共起性に関するヒューリスティックスを取り込むことができる枠組となっている.
entityを単語,説明変量を『単語αと関係fで共起可能である』という性質を表し,説明変量の値が1(共起可能),0(共起不可能)の2値であるとする.言語コーパスから,単語ωが単語αと関係fで共起したという観測結果が得られない場合,共起不可能なのではなく,共起性未定であり,この意味で,言語コーパスから得られるデータは不完全データである.共起性未定部分を個々に0あるいは1とした解候補の内,語の共起性に関するヒューリスティックスを満足する解候補に対して,その解候補の妥当性を求め,それが最大のものを解とする.妥当性は,ある語と共起する語同士および共起しない語同士は類似しているという仮定に基づき,語の特徴ベクトルを各説明変量の値(つまり,どのような共起性があるか)として,判別分析で用いられる相関比を拡張したもので定量化した.
ランダムに抽出した名詞約200,格助詞・動詞の組約200に対して,両者の共起性の推定実験を行ない,良好な結果を得ている.

報告書

(2件)
  • 2000 実績報告書
  • 1999 実績報告書
  • 研究成果

    (2件)

すべて その他

すべて 文献書誌 (2件)

  • [文献書誌] 冨浦洋一 他: "不完全データに対する判別分析と語の共起性推定への応用"電子情報通信学会技術研究報告. (2001年3月予定). (2001)

    • 関連する報告書
      2000 実績報告書
  • [文献書誌] 田中省作: "共起制約を組み込んだ確率文法による名詞句の統語的曖昧さの解消"九州大学大学院システム情報科学研究科報告. 5巻・1号(未定). (2000)

    • 関連する報告書
      1999 実績報告書

URL: 

公開日: 1999-04-01   更新日: 2016-04-21  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi