文字認識(OCR)の生の出力テキストに対して認識誤りの存在を考慮しながら検索を行う曖昧検索手法を、音声認識(SR)の出力テキストに対して応用する方法について検討、提案した。今年度は下記に示すように、データ収集と提案手法の理論的検討、ならびに国際会議などにおける現地調査を含む関連研究の幅広い調査を行った。 1.発話テキストの収集 検索対象とする発話テキストを含む英文コーパスを調達した。対象言語を英語としたのは、Spoken document retrievalの日本語における研究発表がまだ殆んどないため、日本語の発話テキスト収集が困難であること、また相対的な評価が日本語では殆んど不可能であることがその理由である。 2.音声曖昧検索の問題点の抽出 英文発話テキストを曖昧検索の対象とした場合の問題点を抽出した。文字認識と音声認識の結果の大きな違いはその認識率であり、活字文字認識率が95から99%であるのに対し、音声認識率は50から80%程度である。この認識率の差が曖昧検索性能に与える悪影響を評価し、発話テキスト曖昧検索における問題点を抽出した。具体的には、ground truthとなるテキストと認識結果とのアラインメント方法、認識誤りの抽出方法、認識誤りの分類方法、確率オートマトンのパラメータの推定方法などについて、発話テキストの曖昧検索に適用可能な方法を検討した。また検索対象を文字列とした場合と、それより簡単な音素列にした場合の利害得失について考察した。 3.調査 音声曖昧検索の研究はまだ発表事例が少ないため、国内外の論文誌等資料を収集するとともに、最新の研究事例について国際会議などに出席して直接調査した。曖昧検索は、生物情報学におけるDNAの塩基配列データに対するアラインメントや類似配列検索などとも本質的に関連が深く、この分野への応用の可能性についても検討した。また提案する曖昧検索手法の有効な活用方法として、メタ検索エンジンなどのWebアプリケーションに組み込むことを検討した。
|