2009 Fiscal Year Annual Research Report
実世界環境下における遠隔発話の音声認識と話者認識およびインデックス化に関する研究
Project/Area Number |
19650040
|
Research Institution | Toyohashi University of Technology |
Principal Investigator |
中川 聖一 Toyohashi University of Technology, 工学部, 教授 (20115893)
|
Co-Investigator(Kenkyū-buntansha) |
山本 一公 豊橋技術科学大学, 工学部, 助教 (40324230)
土屋 雅稔 豊橋技術科学大学, 工学部, 助教 (70378256)
北岡 教英 名古屋大学, 大学院・情報科学研究科, 准教授 (10333501)
王 龍標 静岡大学, 工学部, 助教 (30510458)
|
Keywords | 遠隔発話 / 音声認識 / 話者認識 / マイクロフォンアレイ / ビームフォーマー / インデックス化 / ハンズフリー |
Research Abstract |
遠隔発話の音声認識に関しては、H20年度とH21年度に開発した話者の位置と発声方向の同定方法を用いた認識手法を開発した。つまり、音源位置の同定に基づいて、マイクロフォンアレイのビームフォーマーによって音声を強調し、発声方向の向きの同定によって、発声語彙を推定・制限する方法により認識率を高めた。さらに、残響補正の基本的な手法であるケプストラム平均正規化法を、短時間の発声によりオンラインで適用できる技術を開発した。これは、混合ガウス分布(GMM)モデルにより音声をモデル化しておき、入力音声の各フレームをGMMの要素に対応付け、その要素ごとにあらかじめ学習しておいたケプストラム平均正規化量を用いて正規化するもので、従来手法なら数単語の発声時間長を要していたものが、1単語の発声でも正規化の効果が確認できた。 遠隔発話の話者認識に関しては、マイクロフォンアレイによる音声強調をした音声に対して、H20年度とH21年度に開発したスペクトル情報(MFCC)と位相情報の併用法を用いた認識手法を開発した。 インデックス化に関しては、音声認識と話者認識結果の後処理として、認識結果からの場所とか人名、組織名などの固有名の抽出方法を開発した。テキスト入力ではかなり精度良く固有名を抽出できたが、遠隔発話の音声認識が非常に困難なため、満足のいく結果は得られなかった。
|