2014 Fiscal Year Research-status Report
音声ドキュメント内の検索とフィードバックに基づく高度なインデキシング機能の実現
Project/Area Number |
25330128
|
Research Institution | Shizuoka University |
Principal Investigator |
甲斐 充彦 静岡大学, 工学研究科, 准教授 (60283496)
|
Co-Investigator(Kenkyū-buntansha) |
王 龍標 長岡技術科学大学, その他部局等, 准教授 (30510458)
|
Project Period (FY) |
2013-04-01 – 2016-03-31
|
Keywords | 音声ドキュメント検索 / 音声検索語検出 / 音声区間検出 / 雑音残響環境 / 残響除去 / DNN / 認識精度推定 |
Outline of Annual Research Achievements |
多様な環境で収録される音声データのまとまり(音声ドキュメント)に対して、クエリとしての言葉が発話された区間を検出するために用いるインデキシングを改善していくシステムを構築するため、関連する要素技術の改良を進めた。当年度の研究実施計画のとおり、実環境で収録された雑音や残響の影響を含むデータを実験用データに加えて以下のようなサブテーマに取り組んだ。まず、前年度までの成果として開発したDeep Neural Networkを用いた音声区間検出手法を、実際に会議室環境で収録された遠隔収録の音声データに対して適用した。そして、教師なしでの環境適応を実現するためクロス適応の考え方を導入した改善手法を提案し、複数の会議室環境の実データを用いた評価実験によって提案手法の有効性を示した。また、前年度に引き続き、複数の話者が混在する音声データから話者別に分類する話者ダイアライゼーションの改良を進めた。具体的には、複数の会議室で実際に収録された接話マイクロフォンと遠隔マイクロフォンの音声データのパラレルデータを用いて、denoising autoencoderの特徴正規化手法を応用して収録環境の違いによる特徴変動を削減するDNNを学習し、遠隔収録音声の話者ダイアライゼーションの前処理として用いることで精度を改善することを示した。更に、インデックス信頼度の評価手法の開発に関連して、音声認識結果から推定できる信頼度や発話速度などの発話固有の特徴を抽出して、話者固有の認識精度を推定するモデルの開発を進めた。約130名の話者の単語音声データを用いた評価実験によって、話者単位で約50%近い変動を持つ認識精度の違いを小さい誤差で推定できることを示した。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
当初の予定のようにこれまで開発してきた内容について実環境収録音声データを用いて環境適応化を含めた評価や信頼度推定などの要素技術の開発を進めることができた。
|
Strategy for Future Research Activity |
これまでに開発してきた要素技術をもとに、最終年度までに予定しているコンテンツ作成支援につながるインデックス信頼度推定やインタフェースを含むシステム開発を進める。
|
Research Products
(11 results)