研究課題/領域番号 |
19650040
|
研究種目 |
挑戦的萌芽研究
|
配分区分 | 補助金 |
研究分野 |
知覚情報処理・知能ロボティクス
|
研究機関 | 豊橋技術科学大学 |
研究代表者 |
中川 聖一 豊橋技術科学大学, 工学部, 教授 (20115893)
|
研究分担者 |
山本 一公 豊橋技術科学大学, 工学部, 助教 (40324230)
土屋 雅稔 豊橋技術科学大学, 工学部, 助教 (70378256)
北岡 教英 名古屋大学, 大学院・情報科学研究科, 准教授 (10333501)
王 龍標 静岡大学, 工学部, 助教 (30510458)
|
研究期間 (年度) |
2007 – 2009
|
研究課題ステータス |
完了 (2009年度)
|
配分額 *注記 |
3,200千円 (直接経費: 3,200千円)
2009年度: 900千円 (直接経費: 900千円)
2008年度: 1,300千円 (直接経費: 1,300千円)
2007年度: 1,000千円 (直接経費: 1,000千円)
|
キーワード | 遠隔発話 / 音声認識 / 話者認識 / マイクロフォンアレイ / ビームフォーマー / インデックス化 / ハンズフリー / 発声方向 / 音源位置 / ニューラルネットワーク / ケプストラム平均正規化 / マイクロホンアレー / 残響特性 / 伝達特性 |
研究概要 |
遠隔発話の音声認識に関しては、H20年度とH21年度に開発した話者の位置と発声方向の同定方法を用いた認識手法を開発した。つまり、音源位置の同定に基づいて、マイクロフォンアレイのビームフォーマーによって音声を強調し、発声方向の向きの同定によって、発声語彙を推定・制限する方法により認識率を高めた。さらに、残響補正の基本的な手法であるケプストラム平均正規化法を、短時間の発声によりオンラインで適用できる技術を開発した。これは、混合ガウス分布(GMM)モデルにより音声をモデル化しておき、入力音声の各フレームをGMMの要素に対応付け、その要素ごとにあらかじめ学習しておいたケプストラム平均正規化量を用いて正規化するもので、従来手法なら数単語の発声時間長を要していたものが、1単語の発声でも正規化の効果が確認できた。 遠隔発話の話者認識に関しては、マイクロフォンアレイによる音声強調をした音声に対して、H20年度とH21年度に開発したスペクトル情報(MFCC)と位相情報の併用法を用いた認識手法を開発した。 インデックス化に関しては、音声認識と話者認識結果の後処理として、認識結果からの場所とか人名、組織名などの固有名の抽出方法を開発した。テキスト入力ではかなり精度良く固有名を抽出できたが、遠隔発話の音声認識が非常に困難なため、満足のいく結果は得られなかった。
|