研究概要 |
音声-音素変換精度改良と音声ドキュメント高速検索システム評価を行った。 (1)音声-音素高精度変換器の開発では,未知語に対する検索性能を保証するため,調音特徴ベースのサブワード音声認識エンジンを開発した。(a)では,高精度調音特徴抽出器(2段のMLNから構成)の組み込み,(b)では調音運動ベース音素認識HMMの最適設計(状態数,コンテキスト,IPによる湧出し制御他),(c)では約1,200種の日本語全短・長音節に対する言語モデル(tri-gram)の組み込みに注力した。また,抽出器に音素毎の固有ベクトルを反映した部分空間を組込む方式を評価し性能向上を確認した。調音特徴入力に最適化したHMM音響モデルを開発し,実時間音素認識エンジンを開発した。 (2) キーワード高速検索システムの構築では,放送大学の講義ビデオを対象に,講義毎に設定したキーワードを検索するシステムを構築し評価した。評価では,講義音声から人手で書き下したデータを作成し,任意キーワードを1秒以内の実時間で高精度(目標F値0.7)に検索可能なことを確認した。
|