• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 前のページに戻る

タグなしコーパスからの形態素解析情報の抽出

研究課題

研究課題/領域番号 08780329
研究種目

奨励研究(A)

配分区分補助金
研究分野 知能情報学
研究機関筑波大学

研究代表者

山本 幹雄  筑波大学, 電子・情報工学系, 講師 (40210562)

研究期間 (年度) 1996
研究課題ステータス 完了 (1996年度)
配分額 *注記
1,000千円 (直接経費: 1,000千円)
1996年度: 1,000千円 (直接経費: 1,000千円)
キーワード自然言語処理 / 日本語形態素解析 / 確率的形態素解析 / 隠れマルコフモデル / n-gram / ダグなしコーパス
研究概要

本研究では、自然言語処理において最も基本的な形態素解析(文中の単語、品詞や活用型など同定する)に関する確率的なルールをタグなしのコーパスから学習する方法を検討した。大きく2つの手法を提案し、評価実験を行った。
1つ目の手法は、本研究以前に既に提案されている1次マルコモデルを推定する方法と異なり、隠れマルコフモデルを推定する手法である。隠れマルコフモデルは2次マルコフモデルに近い性能を少ないパラメータで実現できるため、そのロバスト性において優れている。これまでの研究では実用的には1次マルコフモデルを推定できるのみであったが、より高性能なモデルをタグなしコーパスから推定することが可能となった。
また、タグなしコーパスから確率モデルを推定する場合ノズルが大きな問題となるが、本研究では2つ目の提案として信頼性係数を導入し、ノイズによる影響の軽減を試みた。これは、タグなしコーパスから抽出された可能な単語連鎖に信頼性を付与することによって、信頼性の低い連鎖によるノイズを低減する手法である。
以上2つの手法を実際の日本語形態素解析システムに応用し、評価を行った。この結果、信頼性係数はマルコフモデル、隠れマルコフモデルどちらのモデルに対してもタグなしコーパスから推定する場合に有効であることが分かった。また、信頼性係数を使わない状態で隠れマルコフモデルと1次マルコフモデルを比較した場合は、1次マルコフモデルの方が性能が高かった。しかし、信頼性係数が使われてある程度ノイズが押えられるとこの関係は逆転した。これは、隠れマルコフモデルは1次マルコフモデルよりもパラメータ数が多く精密なモデルであるため、ノイズに弱いためであると考えられる。

報告書

(1件)
  • 1996 実績報告書
  • 研究成果

    (1件)

すべて その他

すべて 文献書誌 (1件)

  • [文献書誌] Mikio Yamamoto: "A re-estimation method for stochastic language modeling from ambiguous observations" Proceedings of the Fourth Workshop on Very Large Corpora. 155-167 (1996)

    • 関連する報告書
      1996 実績報告書

URL: 

公開日: 1996-04-01   更新日: 2016-04-21  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi