2018 Fiscal Year Annual Research Report
Development of Passive and Active Conversation Information Collection System Using Close-Talk Microphone and Throat Microphone
Project/Area Number |
16K01543
|
Research Institution | Shizuoka University |
Principal Investigator |
西田 昌史 静岡大学, 情報学部, 准教授 (80361442)
|
Co-Investigator(Kenkyū-buntansha) |
西村 雅史 静岡大学, 情報学部, 教授 (60740363)
|
Project Period (FY) |
2016-04-01 – 2019-03-31
|
Keywords | 咽喉マイク / コンデンサマイク / 音声認識 / DNN / LSTM / 知識蒸留 |
Outline of Annual Research Achievements |
今年度は,咽喉マイクを用いた音声認識について取り組んだ.まず,従来の咽喉マイク音声は人間でも聴き取りづらい部分があり,更なる認識精度の改善のためには咽喉音の収録方法の改善が必要と考え,特性上のばらつきの抑制と帯域の拡大を目的として市販のコンデンサマイクユニットを用いた咽喉音収録デバイスを製作した.周波数特性,外部雑音に対する頑健性,人による聴取実験を行った結果,従来の咽喉ピエゾよりも外部雑音に頑健で音声の明瞭度も高いことが明らかになった.また,咽喉マイクは一般的なマイク(気導マイク)と音響特性が大きく異なるため,通常の音響モデルでは認識精度が低下する.そこで,咽喉マイク音声のMFCCから気導マイク音声のボトルネック特徴量へのDNNに基づく特徴量変換とLSTMに基づく時系列を考慮した特徴量変換を提案した.自由発話の音声データを対象とした大語彙音声認識タスクによる評価を行った結果,気導マイク音声で学習した音響モデルで咽喉マイク音声を認識する手法に比べて,提案手法により文字誤り率が74.6%から39.7%に改善することができた.さらに,咽喉マイクの音声データ量には限りがあり,咽喉マイク音声のみで十分な精度を持つ音響モデルを構築するのは困難である.そこで,認識時に接話マイクを併用しない咽喉マイク単体での認識精度を改善するために,大量の接話マイク音声と少量のパラレルデータを活用した咽喉マイク音声のための知識蒸留に基づくハイブリッド方式の音響モデルの学習法を提案した.自由発話の音声データを対象とした大語彙音声認識タスクによる評価を行った結果,約3時間の咽喉マイク音声で学習したGMM-HMMを音響モデルとした手法に比べて,提案手法により文字誤り率が52.4%から39.5%に改善することができた.
|