2004 年度実績報告書

確率オートマトンに基づく曖昧検索モデルの発話テキストへの適用

研究課題

研究課題/領域番号	14780329
研究機関	東京都立大学
研究代表者	太田学東京都立大学, 工学研究科・電気工学専攻, 助手 (10326019)
キーワード	曖昧検索 / 類似検索 / 確率オートマトン / HMM / SDR / OCR / 音声認識 / 文字認識
研究概要	文字認識(OCR)の生の出力テキストに対して認識誤りの存在を考慮しながら検索を行う曖昧検索手法を、音声認識(SR)の出力テキストに対して応用する方法について検討および提案した。今年度は、様々な曖昧検索手法について比較検討し、国際会議などにおける現地調査を含む関連研究の幅広い調査を行った。 1.音声曖昧検索手法の比較検討英文発話テキストを具体的に曖昧検索する方法について検討した。文字認識と音声認識の結果の大きな違いはその認識率であり、活字文字認識率が95から99%であるのに対し、音声認識率は50から80%程度である。この認識率の差は提案する曖昧検索モデルに大きな影響を与えるため、発話テキスト検索では調整が必要となる。具体的には、認識誤りを含まない元のテキストと認識結果とのアラインメント方法、認識誤りの抽出方法、認識誤りの分類方法、確率オートマトンのパラメータの推定方法などについて、発話テキストの曖昧検索に適用可能な方法を検討した。Soundexのように類似した音節を同一のものとして扱う手法は検索精度の点で不十分で、提案手法のように認識誤りの特性を考慮する必要がある。また曖昧に検索するためのコストは検索精度とトレードオフの関係にあるが、現実的なコストで十分な検索精度を実現する必要がある。 2.調査音声曖昧検索の研究は発表事例が少ないため、国内外の論文誌等資料を収集するとともに、最新の研究事例について国際会議などに出席して直接調査した。特にメタ検索エンジンなどのWebアプリケーションに組み込んで利用できれば有効と考えており、このような利用方法について検討した。

研究成果
(2件)

すべて 2005 2004

すべて雑誌論文 (2件)

[雑誌論文] 斜交基底を用いたメタ検索におけるランクリストの統合方法の提案2005
- 著者名/発表者名
  大野成義, 太田学, 片山薫, 石川博
- 雑誌名
  
  電子情報通信学会論文誌 Vol.J88-D-I, No.3
  
  ページ: 657-667
[雑誌論文] Overlapping Clustering Method Using Local and Global Importance of Feature Terms at NTCIR-4 Web Task2004
- 著者名/発表者名
  M.OHTA, H.NARITA, S.OHNO
- 雑誌名
  
  Working Notes of the Fourth NTCIR Meeting Supplement volume 1
  
  ページ: 37-44