研究課題/領域番号 |
20H01159
|
研究種目 |
奨励研究
|
配分区分 | 補助金 |
審査区分 |
4110:情報科学、情報工学、人間情報学、応用情報学およびその関連分野
|
研究機関 | 国立研究開発法人理化学研究所 |
研究代表者 |
關口 航平 国立研究開発法人理化学研究所, 革新知能統合研究センター, テクニカルスタッフ1
|
研究期間 (年度) |
2020-04-01 –
|
研究課題ステータス |
完了 (2020年度)
|
配分額 *注記 |
480千円 (直接経費: 480千円)
2020年度: 480千円 (直接経費: 480千円)
|
キーワード | 音声強調 / 音源分離 / 音声認識 |
研究開始時の研究の概要 |
雑音存在下で頑健な音声認識を行うために、多チャネルマイクで音声を録音し、対象の音声の強調と音声認識を順番に行うアプローチが用いられるが、前段の音声強調が失敗した場合に認識精度が大きく低下してしまう問題がある。 本研究では音声を言語情報と話者情報に分離する技術を開発し、それを用いて音声認識と多チャネル音声強調を統合することで、音声強調と認識の精度を同時に改善する。
|
研究成果の概要 |
音声認識を用いるシステムにおいて、マイクと話者の距離が離れている場合には周囲の雑音や残響などもマイクでの観測音に含まれてしまうために音声認識が困難になる問題がある。そのため、観測音から音声のみを取り出す研究が盛んにおこなわれている。本研究では、使用する環境を特定しない汎用的な音声強調手法に深層学習を用いた音声の生成モデルを統合した従来手法に着目し、音声が時不変な話者情報と時変な言語情報に依存するという性質を考慮した音声の生成モデルを用いることで、音声強調精度のさらなる改善を図った。
|
研究成果の学術的意義や社会的意義 |
音声認識は、スマートフォンなどのように話者とマイクの距離が近い場合には、現在すでに高い認識率を達成しているものの、話者とマイクの距離が離れている場合には周囲の影響により認識率は大幅に低下してしまう。このような状況における認識率を改善することができれば、スマートスピーカなどを快適に利用できるようになったり、聴覚障害者の日常生活を補助するようなデバイスを実現することが可能になったりすると考えられるため、音声強調は重要な研究テーマである。
|