2020 年度研究成果報告書

話者・言語特徴の分離表現に基づく音声強調・認識の統合

研究課題

PDF

研究課題/領域番号	20H01159
研究種目	奨励研究
配分区分	補助金
審査区分	4110:情報科学、情報工学、人間情報学、応用情報学およびその関連分野
研究機関	国立研究開発法人理化学研究所
研究代表者	關口航平国立研究開発法人理化学研究所, 革新知能統合研究センター, テクニカルスタッフ1
研究期間 (年度)	2020-04-01 –
キーワード	音声強調 / 音源分離 / 音声認識
研究成果の概要	音声認識を用いるシステムにおいて、マイクと話者の距離が離れている場合には周囲の雑音や残響などもマイクでの観測音に含まれてしまうために音声認識が困難になる問題がある。そのため、観測音から音声のみを取り出す研究が盛んにおこなわれている。本研究では、使用する環境を特定しない汎用的な音声強調手法に深層学習を用いた音声の生成モデルを統合した従来手法に着目し、音声が時不変な話者情報と時変な言語情報に依存するという性質を考慮した音声の生成モデルを用いることで、音声強調精度のさらなる改善を図った。
自由記述の分野	統計的音響信号処理
研究成果の学術的意義や社会的意義	音声認識は、スマートフォンなどのように話者とマイクの距離が近い場合には、現在すでに高い認識率を達成しているものの、話者とマイクの距離が離れている場合には周囲の影響により認識率は大幅に低下してしまう。このような状況における認識率を改善することができれば、スマートスピーカなどを快適に利用できるようになったり、聴覚障害者の日常生活を補助するようなデバイスを実現することが可能になったりすると考えられるため、音声強調は重要な研究テーマである。