研究課題/領域番号 |
25330128
|
研究種目 |
基盤研究(C)
|
研究機関 | 静岡大学 |
研究代表者 |
甲斐 充彦 静岡大学, 工学(系)研究科(研究院), 准教授 (60283496)
|
研究分担者 |
王 龍標 長岡技術科学大学, 学内共同利用施設等, 准教授 (30510458)
|
研究期間 (年度) |
2013-04-01 – 2016-03-31
|
キーワード | 音声ドキュメント検索 / 音声検索語検出 / STD / VAD / 話者認識 / 雑音残響環境 / 信頼度 |
研究概要 |
音声ドキュメントに対して、要求される情報検索の目的や精度に応じてインデキシングを効果的に進めるためのコンテンツ化支援システムの実現を目的として、基盤となる検索システムの要素技術の開発と改良を進めた。第一に、多様な音声収録環境が含まれる音声ドキュメント集合の高精度なインデキシングを実現するため、音声ドキュメント集合を話者や環境などで自動分類する手法の開発を目的として、雑音環境下音声における音声区間検出(VAD)や話者分類の性能改善を図った。まず、音声特徴抽出と識別器設計において、近年パターン認識等の分野で注目されているDeep Belief Network(DBN)の手法を利用した方法を提案し、雑音下音声のVAD性能評価において従来手法に比べて有効性を示した。更に、話者ダイアライゼーションへの応用も想定して、遠隔音声に対して話者の違いの特徴を頑健に抽出するためDBNのボトルネック特徴量を用いる方法を提案し、遠隔音声の話者認識のタスクにおいて従来手法と比べて性能を大きく改善することを示した。第二に、インデックス信頼度評価手法の開発に関連して、大語彙音声認識システムから得られる単語グラフ出力情報を用いて推定された検索語の候補区間の信頼度を用いて検索候補を絞り込み、以前に提案している音声検索語検出手法と併用する方法を提案し、従来手法に対して検索性能の改善を示した。更に、音声クエリを用いた音声検索語検出の予備的な評価においても、提案手法が検索性能を改善できることを示した。第三に、韻律・音響特徴パターンによるインデキシングの拡張技術の開発のための予備調査として、大規模な講演音声コーパスを用いて検索対象となりやすい検索フレーズ部分を対象として、信頼度および認識精度と韻律特徴との関係分析を行った。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
3: やや遅れている
理由
話者・環境クラスタリング手法の基盤となるVADや話者特徴抽出手法を改善する方法を開発して成果を示したが、これらをもとにした話者ダイアライゼーションの評価実験や改良は現在進行中である。
|
今後の研究の推進方策 |
これまでに基盤となる検索システムの要素技術の開発と改良の多くはおおよそ計画通りに進んでおり、やや遅れている話者ダイアライゼーションの評価実験も準備が進みつつある。今後、予定しているように話者ダイアライゼーションの評価実験と併せてインデックス信頼度評価手法の開発を進め、様々な雑音・残響下音声のデータベースによる評価実験も進めていく。
|