文字レベルと単語レベルの確率モデルを融合した形態素解析システム

研究課題

研究課題/領域番号	09780309
研究種目	奨励研究(A)
配分区分	補助金
研究分野	知能情報学
研究機関	筑波大学
研究代表者	山本幹雄筑波大学, 電子・情報工学系, 助教授 (40210562)
研究期間 (年度)	1997 – 1998
研究課題ステータス	完了 (1998年度)
配分額 *注記	2,100千円 (直接経費: 2,100千円) 1998年度: 500千円 (直接経費: 500千円) 1997年度: 1,600千円 (直接経費: 1,600千円)
キーワード	統計的言語モデル / 確率的形態素解析 / 文字n-gram / 品詞n-gram / 言語抽出 / 自然言語処理 / 形態素解析 / 時系列確率モデル / 隠れマルコフモデル / クラスタリング
研究概要	本年度(H10年度)の前半は、昨年度(H9年度)提案した文字レベルのモデルを用いた単語分割法(文字クラスタリング)、および単語レベルのモデルを用いた品詞付与手法(HMMの改良)を組合わせる研究を行った。1つ目の組合わせは、文字レベルのモデルで文の単語分割を決定し、その後、単語レベルのモデルで品詞を付与する手法である。2つ目は、文字レベルでの単語分割を一つに決定せず、単語候補のラティスを中間段階で生成し、その中から単語(の品詞)レベルのモデルで単語分割・品詞列を決定する手法である。評価実験の結果、文字レベルで単語分割を決定する手法(1つ目)が優れていることが明らかになった。これは、文字レベルのモデルが単語の字面の情報まで使うのに比べ、単語レベルのモデルが品詞のみの情報しか用いないため、単語の分割に関して誤った解を出す傾向か強かったためである。 2つ目の融合手法を改良するためには、単語レベルのモデルにも字面情報を導入するべきと考えられるが、字面情報を使うと未知語に対する頑健性が弱くなることが予想される。本年度の後半では、これを解決するためのアプローチとして(間接的にはなるが)、文字レベルの統計情報を使った自動的な辞書項目の拡張を検討した。手法としては、情報検索で使われている類似度のメジャーを任意の部分文字列に適用した単語抽出法を提案し、未知語となりやすい固有名詞等の単語(情報検索におけるキーワード)を検出できることを示した。これは、文字レベルの統計情報を用いているため、間接的ではあるが、文字レベルのモデルと単語レベルのモデルを融合する方法の一つのアプローチとなっている。今後は、この情報を動的に取り入れる形態素解析システムを検討ずる。

報告書

(2件)

1998 実績報告書
1997 実績報告書

研究成果
(2件)

すべてその他

すべて文献書誌 (2件)

[文献書誌] Mikio Yamamoto: "Using suffix arrays to compute term frequency and document frequency for all substrings in a corpus" proceedings of the 6th Workshop on Very Large Corpora. 28-37 (1998)
- 関連する報告書
  1998 実績報告書
[文献書誌] Shuichi ITAHASHI: "Several measures for selecting suitable speech corpora" Eurospeech '97 Proceedings. Vol.4. 1751-1754 (1997)
- 関連する報告書
  1997 実績報告書