2012 Fiscal Year Annual Research Report

Ｗｅｂ音声インデキシングのための言語的特性の変動に頑健な音声認識に関する研究

Research Project

Project/Area Number	23700225
Research Institution	National Institute of Advanced Industrial Science and Technology
Principal Investigator	緒方淳独立行政法人産業技術総合研究所, 情報技術研究部門, 研究員 (10392599)
Keywords	コンテンツ・アーカイブ / ディレクトリ・情報検索 / 知能ロボティックス / 機械学習 / 音声認識・理解
Research Abstract	Web上に膨大に存在する音声コンテンツ (動画、ポッドキャスト等) から、ユーザが欲しい情報を検索したり、快適な鑑賞を行うためには、音声データを正しく音声認識し、インデキシングを行う技術が必要不可欠である。しかし、現状の音声認識システムは実環境の様々な変動に対して頑健ではないため、Web 上の音声データの認識は困難である。そこで本研究では、Web 上の様々な言語資源を活用することで、音声認識における話題や語彙、発話スタイルといった言語的特性の変動に対する頑健性をいかに高めていけるかを学術的目的とする。 24年度では、まず、前年度に構築したWebニューステキストによる言語モデルを、日々配信される最新のニューステキストをもとに、日常的に自動更新できるように拡張した。これにより、言語モデルが、日々移り変わる世の中の情勢や話題を逐次追従していく仕組みを実現した。また、獲得した新出語の読み情報を、外部のWebキーワード辞書サービス(はてなキーワードを活用)から自動取得する機能を実装した。集合知に基づく言語モデリング手法の確立への取り組みとして、まず、Webサービス「PodCastle」を通じて得られる書き起こしテキストを発話スタイルの観点から分析するとともに、こうした集合知をもとにした書き起こしテキストを集約した独自のコーパスを構築・整備した。本コーパスを活用することで、様々な発話スタイルを単一のモデル内に反映した大域的言語モデリング、さらに発話スタイル・話題に動的に適応する新たな言語モデリング手法の検討を行い、開発・評価を行った。

Research Products
(1 results)

All Presentation (1 results)

[Presentation] PodCastle: Collaborative Training of Language Models on the Basis of Wisdom of Crowds
- Author(s)
  Jun Ogata, Masataka Goto
- Organizer
  Interspeech2012
- Place of Presentation
  Portland, USA