文字認識(OCR)の生の出力テキストに対して認識誤りの存在を考慮しながら検索を行う曖昧検索手法を、音声認識(SR)の出力テキストに対して応用する方法について検討および提案した。今年度は、英語活字OCR出力に対する提案する確率オートマトン認識モデルの適用について総括した。また提案手法の理論的検討、ならびに国際会議などにおける現地調査を含む関連研究の幅広い調査を行った。 1.確率オートマトンを用いた英文曖昧検索の総括 提案する確率オートマトン認識モデルの妥当性、性能、理論的な限界などを英語活字OCR出力に対して検証した。検索効率の評価では、文字の誤認識確率を用いた手法よりも文字の連接情報も考慮した提案モデルの方が有意に優れていることを示した。一方曖昧に検索するための付加コストは検索効率とトレードオフの関係にあるが、現実的なコストで十分な検索効率を実現できることを示した。さらに提案モデルの活用方法として、文書画像ベースの電子図書館システムの全文検索インタフェースなどでの利用について検討した。 2.音声曖昧検索の理論的検討 英文発話テキストを具体的に曖昧検索する方法について検討した。文字認識と音声認識の結果の大きな違いはその認識率であり、活字文字認識率が95から99%であるのに対し、音声認識率は50から80%程度である。この認識率の差は提案する曖昧検索モデルに大きな影響を与えるため、発話テキスト検索では調整が必要となる。具体的には、ground truthとなるテキストと認識結果とのアラインメント方法、認識誤りの抽出方法、認識誤りの分類方法、:確率オートマトンのパラメータの推定方法などについて、発話テキストの曖昧検索に適用可能な方法を検討した。 3.調査 音声曖昧検索の研究は発表事例が少ないため、国内外の論文誌等資料を収集するとともに、最新の研究事例について国際会議などに出席して直接調査した。特にメタ検索エンジンなどのWebアプリケーションに組み込んで利用できれば有効と考えており、このような利用方法について検討した。
|