2011 Fiscal Year Research-status Report

Ｗｅｂ音声インデキシングのための言語的特性の変動に頑健な音声認識に関する研究

Research Project

Project/Area Number	23700225
Research Institution	National Institute of Advanced Industrial Science and Technology
Principal Investigator	緒方淳独立行政法人産業技術総合研究所, 情報技術研究部門, 研究員 (10392599)
Project Period (FY)	2011-04-28 – 2013-03-31
Keywords	コンテンツ・アーカイブ / ディレクトリ・情報検索 / 知能ロボティックス / 機械学習 / 音声認識・理解
Research Abstract	本研究では、Web上の様々な言語資源を活用することで、音声認識における話題や語彙、発話スタイルといった言語的特性の変動に対する頑健性をいかに高めていけるかを学術的目的とする。本年度は、本研究の重要なポイントであるWeb上の膨大な言語資源、集合知を取得するための仕組みを整備するとともに、Webのテキストデータを利用した言語モデリングの高度化について計画通り進めた。まず、Webを通じて様々な発話スタイルテキストを得るために、申請者らがこれまで開発してきたポッドキャスト検索Webサービス「PodCastle」の拡張を行った。具体的には、近年急速に普及が進んでいる動画共有サイトの動画データも扱えるように拡張し、音声認識を行うことで、ポッドキャスト同様に動画の全文検索が可能となった。動画共有サイトとしてYouTube、ニコニコ動画、Ustreamといった現在主流のサービスをカバーし、対象とすることで、膨大かつ幅広い種類の動画データを扱えるようになった。　次に、日々更新されるWebニューステキストを収集し、様々な話題・語彙をカバーする言語モデリングのための学習データ（コーパス）を整備し、これを利用することで、Webニューステキストの幅広い話題・語彙を反映した汎用的な言語モデルを構築した。本言語モデルは、実際のWeb音声データの認識に対して、未知語率、パープレキシティを大幅に削減し、音声認識率を改善できることがわかった。また、言語モデルのさらなる改善のために、入力されたWeb音声データに動的かつ教師なしで話題適応する手法の研究開発に取り組んだ。
Current Status of Research Progress	Current Status of Research Progress 2: Research has progressed on the whole more than it was originally planned. Reason Webサービスの拡張、Webニューステキストコーパスの収集、基本言語モデルの構築、教師なし適応手法による改善といった当初の計画どおりの研究開発、成果を達成しているため。
Strategy for Future Research Activity	引き続きWebニューステキストの収集、Webサービスの運用を行って言語資源の規模拡大を図りつつ、言語モデルを日々更新し続ける仕組みの構築、Webサービスを通じた集合知に基づく言語モデリング手法の確立に取り組んでいく。
Expenditure Plans for the Next FY Research Funding	次年度使用額分の研究費については、24年度に実施予定の集合知を活用した言語モデリング構築のために必要となる高性能計算機の購入に当てる。また、24年度の研究費は、言語モデリング、音声認識評価のためのデータベース（音声書き起こし）の構築に利用する。