コーパスに基づく自然言語の曖昧性解消に関する研究

研究課題

研究課題/領域番号	07780312
研究種目	奨励研究(A)
配分区分	補助金
研究分野	知能情報学
研究機関	山梨大学
研究代表者	福本文代山梨大学, 工学部, 助手 (60262648)
研究期間 (年度)	1995
研究課題ステータス	完了 (1995年度)
配分額 *注記	1,100千円 (直接経費: 1,100千円) 1995年度: 1,100千円 (直接経費: 1,100千円)
キーワード	コーパス / 係り先の曖昧性 / 統計手法 / スムーシング法 / 類似度
研究概要	本研究では英語の前置詞句の係り先の曖昧性に関する問題を取り上げ,コーパスから自動的に得られた知識を利用してこの曖昧性を解消する手法の提案を行なった.本研究でアピールする点,特に関連する研究との差異に注目した特徴は,以下の3点である. 1.品詞づけされたテキストから解消に必要な情報の抽出を行っている. 大量のテキストから曖昧性の解消に役立つ情報の抽出を行う場合,多くの研究は構文解析されたテキストを用いて,情報の抽出を行っている.しかし既存の構文解析システムが解析に必要な知識を十分に備えていないことから,コーパスの種類が限定されたり,また人手により構文解析結果を作成している.本研究では,品詞づけされたコーパスの入力とし,そこから解消に必要な知識の抽出を行っているため,これらの問題を回避できる. 2.語の頻度数が少ない語に関しては類推を行うことにより意味的な関係の抽出を行っている. 曖昧性の解消を行う際,コーパスに出現する頻度が少ない語は,抽出した知識が適用できない場合がある.そういった語に対しては類推,つまりその語と最も意味的に近い語を,抽出した知識から選び出すことで,曖昧性の解消を行っている。この手法の提案により,正解率が、40%増加するという結果が得られた。 3.本手法は,関係代名詞節のスコープの曖昧性の問題や名詞句の係り先の問題にも適用可能である. コーパスから情報の抽出を行う場合,意味的な関係の強さを計算するための尺度として2語間の意味的な関係を抽出する手法が従来より多く提案されている.しかしこの尺度では曖昧性の解消には不十分であることからN語の意味的な関係を計算する計算式を提案した.この手法の提案により前置詞句の係り先の曖昧性の解消率が上がるだけでなく,さらに多数の語の情報を必要とする関係代名詞節のスコープや,名詞句の係り先といった複雑な問題にも適用可能となる. 実験では,前置詞として‘for',‘in',‘with'を用い,曖昧性の解消に用いる情報として2語の意味的な関係と3語の意味的な関係を用いた場合とで比較実験を行った結果,前者が49%の正解率であるのに対し,後者は70.1%の正解率が得られた(論文1参照).また類推の比較としてDaganが提案したsmoothing methodと本手法との比較実験を行った結果,前者は57.6%の正解率に対し,本手法は,63.5%の正解率が得られた(論文2参照).

報告書

(1件)

1995 実績報告書

研究成果
(2件)

すべてその他

すべて文献書誌 (2件)

[文献書誌] 福本文代: "3語の同時出現頻度を利用した前置詞句の係り先の曖昧性解消" 情報処理学会自然言語処理研究会. 67-74 (1995)
- 関連する報告書
  1995 実績報告書
[文献書誌] F. Fukumoto: "Disambiguating Prepositional Phrase Attachments by using Statistical Information about Word Triplets" Natiral Language Processing Pacific Rim Symposium'95. 2. 752-757 (1995)
- 関連する報告書
  1995 実績報告書