タグなしコーパスからの形態素解析情報の抽出

Research Project

Project/Area Number	08780329
Research Category	Grant-in-Aid for Encouragement of Young Scientists (A)
Allocation Type	Single-year Grants
Research Field	Intelligent informatics
Research Institution	University of Tsukuba
Principal Investigator	山本幹雄筑波大学, 電子・情報工学系, 講師 (40210562)
Project Period (FY)	1996
Project Status	Completed (Fiscal Year 1996)
Budget Amount *help	¥1,000,000 (Direct Cost: ¥1,000,000) Fiscal Year 1996: ¥1,000,000 (Direct Cost: ¥1,000,000)
Keywords	自然言語処理 / 日本語形態素解析 / 確率的形態素解析 / 隠れマルコフモデル / n-gram / ダグなしコーパス
Research Abstract	本研究では、自然言語処理において最も基本的な形態素解析(文中の単語、品詞や活用型など同定する)に関する確率的なルールをタグなしのコーパスから学習する方法を検討した。大きく2つの手法を提案し、評価実験を行った。 1つ目の手法は、本研究以前に既に提案されている1次マルコモデルを推定する方法と異なり、隠れマルコフモデルを推定する手法である。隠れマルコフモデルは2次マルコフモデルに近い性能を少ないパラメータで実現できるため、そのロバスト性において優れている。これまでの研究では実用的には1次マルコフモデルを推定できるのみであったが、より高性能なモデルをタグなしコーパスから推定することが可能となった。また、タグなしコーパスから確率モデルを推定する場合ノズルが大きな問題となるが、本研究では2つ目の提案として信頼性係数を導入し、ノイズによる影響の軽減を試みた。これは、タグなしコーパスから抽出された可能な単語連鎖に信頼性を付与することによって、信頼性の低い連鎖によるノイズを低減する手法である。以上2つの手法を実際の日本語形態素解析システムに応用し、評価を行った。この結果、信頼性係数はマルコフモデル、隠れマルコフモデルどちらのモデルに対してもタグなしコーパスから推定する場合に有効であることが分かった。また、信頼性係数を使わない状態で隠れマルコフモデルと1次マルコフモデルを比較した場合は、1次マルコフモデルの方が性能が高かった。しかし、信頼性係数が使われてある程度ノイズが押えられるとこの関係は逆転した。これは、隠れマルコフモデルは1次マルコフモデルよりもパラメータ数が多く精密なモデルであるため、ノイズに弱いためであると考えられる。

Report

(1 results)

1996 Annual Research Report

Research Products
(1 results)

All Publications (1 results)

[Publications] Mikio Yamamoto: "A re-estimation method for stochastic language modeling from ambiguous observations" Proceedings of the Fourth Workshop on Very Large Corpora. 155-167 (1996)
- Related Report
  1996 Annual Research Report