研究課題/領域番号 |
25330128
|
研究機関 | 静岡大学 |
研究代表者 |
甲斐 充彦 静岡大学, 工学研究科, 准教授 (60283496)
|
研究分担者 |
王 龍標 長岡技術科学大学, その他部局等, 准教授 (30510458)
|
研究期間 (年度) |
2013-04-01 – 2016-03-31
|
キーワード | 音声ドキュメント検索 / 音声検索語検出 / 音声区間検出 / 雑音残響環境 / 残響除去 / DNN / 認識精度推定 |
研究実績の概要 |
多様な環境で収録される音声データのまとまり(音声ドキュメント)に対して、クエリとしての言葉が発話された区間を検出するために用いるインデキシングを改善していくシステムを構築するため、関連する要素技術の改良を進めた。当年度の研究実施計画のとおり、実環境で収録された雑音や残響の影響を含むデータを実験用データに加えて以下のようなサブテーマに取り組んだ。まず、前年度までの成果として開発したDeep Neural Networkを用いた音声区間検出手法を、実際に会議室環境で収録された遠隔収録の音声データに対して適用した。そして、教師なしでの環境適応を実現するためクロス適応の考え方を導入した改善手法を提案し、複数の会議室環境の実データを用いた評価実験によって提案手法の有効性を示した。また、前年度に引き続き、複数の話者が混在する音声データから話者別に分類する話者ダイアライゼーションの改良を進めた。具体的には、複数の会議室で実際に収録された接話マイクロフォンと遠隔マイクロフォンの音声データのパラレルデータを用いて、denoising autoencoderの特徴正規化手法を応用して収録環境の違いによる特徴変動を削減するDNNを学習し、遠隔収録音声の話者ダイアライゼーションの前処理として用いることで精度を改善することを示した。更に、インデックス信頼度の評価手法の開発に関連して、音声認識結果から推定できる信頼度や発話速度などの発話固有の特徴を抽出して、話者固有の認識精度を推定するモデルの開発を進めた。約130名の話者の単語音声データを用いた評価実験によって、話者単位で約50%近い変動を持つ認識精度の違いを小さい誤差で推定できることを示した。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
当初の予定のようにこれまで開発してきた内容について実環境収録音声データを用いて環境適応化を含めた評価や信頼度推定などの要素技術の開発を進めることができた。
|
今後の研究の推進方策 |
これまでに開発してきた要素技術をもとに、最終年度までに予定しているコンテンツ作成支援につながるインデックス信頼度推定やインタフェースを含むシステム開発を進める。
|