• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2007 Fiscal Year Annual Research Report

不特定多数のユーザが音声認識誤りを訂正した結果を活用した音声情報検索に関する研究

Research Project

Project/Area Number 19300065
Research InstitutionNational Institute of Advanced Industrial Science and Technology

Principal Investigator

後藤 真孝  National Institute of Advanced Industrial Science and Technology, 情報技術研究部門, 主任研究員 (20357007)

Co-Investigator(Kenkyū-buntansha) 緒方 淳  独立行政法人産業技術総合研究所, 情報技術研究部門, 研究員 (10392599)
江渡 浩一郎  独立行政法人産業技術総合研究所, 情報技術研究部門, 研究員 (20311277)
Keywords音声言語情報処理 / 音声情報検索 / 画像、文章、音声等認識 / ディレクトリ・情報検索 / ユーザインターフェース
Research Abstract

本研究は、エンドユーザに音声認識誤りを訂正する協力をしてもらうことで、音声情報検索性能、音声認識性能をどこまで高くできるかを探求することを目的とする。本年度は、課題(1)「Web上のポッドキャスト等のテキスト全文検索技術」、課題(2)「ユーザが音声認識による自動書き起こしテキストを閲覧し、認識誤りを訂正することを促す方法」、課題(3)「ユーザが訂正を繰り返した正解情報の自動学習等に基づく音声認識性能の向上技術」に関する研究を計画通り進めた。具体的には、課題(1)に関して、Webクライアント用インタフェース、音声認識器に加え、音声認識状態管理部、データベース管理部、検索サーバを実装し、検索用Webサイトを構築した。音声認識状態管理部では、複数の音声認識器の負荷をモニタリングすることで、データベース管理部と連携してポッドキャストを次々と認識可能にした。検索サーバでは、ユーザによるテキスト全文検索とインタフェースの画面遷移を可能にした。課題(2)に関しては、ユーザがポッドキャストの音声認識結果を閲覧し、音声認識誤りを訂正できる機能をWebクライアント用インタフェースとして実現した。音声認識の中間表現(単語グラフ)を要約したconfusion network(信頼度付き競合候補)を利用することで、ユーザが見通し良く効率的に訂正できるようにした。課題(3)に関しては、訂正により正しい書き起こしテキストが得られるので、音響モデルや言語モデルの再学習に取り組んだ。ポッドキャストは、ニュース、講演、インタビューなど、言語(内容)的にも音響的にも多様な特性の音声データを含むので、個々の特性に依存した音声認識を可能にした。

URL: 

Published: 2010-02-04   Modified: 2016-04-21  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi