研究課題/領域番号 |
15K00233
|
研究機関 | 豊橋技術科学大学 |
研究代表者 |
山本 一公 豊橋技術科学大学, 工学(系)研究科(研究院), 准教授 (40324230)
|
研究分担者 |
中川 聖一 豊橋技術科学大学, リーディング大学院教育推進機構, 特任教授 (20115893)
|
研究期間 (年度) |
2015-04-01 – 2018-03-31
|
キーワード | 音声認識 / 深層学習 / Deep Neural Network / 聴覚特性 / 音響特徴量 |
研究実績の概要 |
現在、音声認識技術において、深層学習(Deep Neural Network; DNN)を用いた音響モデルが一般化しつつある。しかしながら、雑音環境下や遠隔発話条件での音声認識性能は未だ充分ではない。本研究の目的は、DNNを用いた音響モデル(特に特徴抽出の部分)に人間の聴覚特性を融合させることで、特に雑音環境下等で音声認識精度の改善を得ることである。 本年度は、DNNでの直接的な特徴抽出ではなく、音響特徴量に聴覚特性を導入する場合の効果について検討を行った。まず、人間の聴覚特性である等ラウドネス特性(人間は1000~4000Hzぐらいの周波数の音は振幅が小さくても良く聴こえるが、低い周波数の音や高い周波数の音は振幅が大きくても聴こえにくいという特性)をFBANK特徴量に導入することで認識率の改善を図った。等ラウドネス特性は、各周波数に対する重みとして表現されるため、DNNの層間の重みとしても表現可能であるが、特徴量としてフィルタバンクを通す前のFFTスペクトルに対して重み付けを行うことで差別化している。また、周辺雑音に対して頑健に音声認識が行える特徴量として提案されているPNS (Power Normalized Spectrum) 特徴量の導入も行った。PNS特徴量は、人間の聴覚特性である、順向マスキング(過去の音がマスクとなって現在の音を聴こえにくくする効果)と中時間パワー正規化(過去の100~200ms程度の音声区間の平均パワーによって現在の音がマスクされる効果)を導入している。これらのPNSの聴覚特性は時間変化を扱うものであり、DNNで直接的に表現することは難しいと考えられる。これらの特徴量を導入した結果として、雑音環境下音声認識タスクにおいて、認識精度の改善を得た。特にPNSを用いることで、自動車雑音環境下で大幅な精度改善を得ることができた。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
当初計画では、聴覚特性をDNNで表現する方法を最初に検討する予定であったが、他機関の研究成果によってその効果がほとんどない(人為的にパラメータを設定しても自動で学習しても差がない)ことが分かったため、本年度はその次の段階で行う予定であった、聴覚特性を導入した音響特徴量(DNNの前段階にフィルタとして聴覚特性を導入すしたもの)を使用することで、どの程度認識精度が改善できるかという検討を行った。行う予定であった検討は実施できたため、研究は順調に進展していると判断する。
|
今後の研究の推進方策 |
人間の聴覚では、蝸牛内の基底膜がフィルタバンクの働きをしており、入力音声によって基底膜が振動することで基底膜上の有毛細胞で神経発火が起き、それが聴覚神経を伝わって脳内に送られることが分かっている。基底膜の運動は連続であるが、現在の音声認識技術では、音声信号を短時間フレームに切り出して抽出した離散時間特徴量を用いているため、時間連続性が途切れている。人間の聴覚は、変化に対して敏感であるため、音声知覚では音素のオンセットが重要であると言われているが、現在の音響特徴抽出ではオンセットを扱うための時間分解能が十分でないと考えられる。そこで、今後の研究では、フィルタバンク毎の時間信号を用いることで時間分解能を向上し、これを時間波形を直接扱うことのできる畳込ニューラルネットワークに入力することで、音声認識精度の向上を図っていく予定である。
|
次年度使用額が生じた理由 |
当初予算計画段階ではGPGPU搭載ワークステーションを購入予定であったが、他の予算でより高性能なものを購入できたため、当該年度の物品費の使用をストレージ(ハードディスク)等のみに切り替えた。そのために使用額が大幅に減り、それにより残額が発生した。
|
次年度使用額の使用計画 |
当初予算計画は、2年目以降の物品費・旅費を圧縮したものとなっていたため、物品費・旅費として使用する。
|