2022 Fiscal Year Research-status Report
複数センサの融合による発声動作からの発話内容の推定と発声補助デバイスへの応用
Project/Area Number |
21K11941
|
Research Institution | Nippon Institute of Technology |
Principal Investigator |
大田 健紘 日本工業大学, 基幹工学部, 助教 (50511911)
|
Project Period (FY) |
2021-04-01 – 2024-03-31
|
Keywords | 無発声音声認識 / 音素 / 深層学習 |
Outline of Annual Research Achievements |
本研究では、音声を発することなく口の動きをもとに発話内容を推定する技術(以降、無発声音声認識)について検討する。本研究では、声帯を除去するなど発声が困難となった人の発話を補助することや、既存の音声認識を補助することを目的としている。令和3年度には、正面以外の様々な方向を向いた状態での無発声音声認識や複数のセンサーを利用した無発声音声認識を実現する手法を検討した。そして、令和4年度は、「無発声音声認識を実用的なものとするために、文章での認識の可能性について検討すること」を目的として研究を行った。令和3年度に構築した無発声音声認識システムは単語単位での認識であったため、令和4年度は連続音声認識でも用いられている深層ニューラルネットワークを導入し、音素単位での無発声音声認識の性能を明らかにする。 令和4年度の成果は以下の通りである。連続音声認識でも用いられている深層ニューラルネットワークとしてDeepSpeech2を採用した。ただし、無発声音声認識に適用するにあたり、層の数を追加・削除することでより認識精度の高いネットワークを検討した。さらに、深層ニューラルネットワークの学習及び認識精度の評価に用いる話者数を増やし、学習データの話者と評価データの話者が異なる条件での評価も行った。その結果、未知の話者であっても約30%の誤差率が実現できた。ただし、認識結果の詳細を確認したところ、単語ごとに認識率に偏りがあったため、学習に用いた音素に偏りがあると考えられる。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
令和4年度の目的は、無発声音声認識を実用的なものとするために、文章での認識の可能性について検討することであった。この目的に対して、連続音声認識でも用いられている深層ニューラルネットワークを導入し、音素単位での無発声音声認識の性能を明らかにした。令和3年度は筋電位やサーモグラフィーなども用いたが、音素単位での認識は計算量が増えることが考えられるため、可視光カメラからの動画像のみを用いて検討した。 連続音声認識でも用いられている深層ニューラルネットワーク(DeepSpeech2)をもとに、層の数を追加・削除することでより認識精度の高いネットワークを検討した。さらに、深層ニューラルネットワークの学習及び認識精度の評価に用いる話者数を増やし、学習データの話者と評価データの話者が異なる条件での評価も行った。その結果、未知の話者であっても約30%の誤差率が実現できた。 これに加え、令和4年度は少ないデータ数で高精度な音声合成品質を実現するために、tacotron2とwaveglow及び転移学習を用いた音声合成システムを利用する環境を整えた。 以上より、令和4年度に実施予定の研究は遂行できており、令和5年度に向けた検討も進められているため、おおむね順調に進展していると評価した。
|
Strategy for Future Research Activity |
令和4年度は無発声音声認識を通常の音声認識と同様に音素単位での認識を可能とすることを目的としていた。未知話者であっても約30%の誤差率で無発声音声認識を実現できた。ただし、認識対象の単語ごとに認識率に偏りがあったため、学習に用いた音素に偏りがあると考えられる。これは、学習に用いた発話の種類が少ないことが考えられる。通常、音声認識では音素バランス文など、出現する音素(列)に偏りのない文章を発話させて、認識システムを構築する。 そのため、令和5年度は、無発声音声認識においても音素バランス文を用いて、学習用データを作成する。また、現時点の無発声音声認識システムには言語モデルが導入されていないため、それを導入する。音声合成との融合に関しては、tacotron2とwaveglow及び転移学習を用いた音声合成システムを検討する。そして、話者の感情に合わせた合成音声の作成を目指すため、画像や皮膚抵抗などの非侵襲な方法による話者の感情推定を検討する。 以上の検討を行うことで、無発声による発話内容の推定から、感情を考慮した音声合成までを、可視光カメラ及び皮膚抵抗計測用センサにより実現が可能となる。ただし、小型のデバイスでリアルタイムに実行するためには計算量の削減やデータ容量の削減などの検討が必要であり、適宜実施する。
|
Causes of Carryover |
令和4年度においては、徐々にコロナの規制が解除され、対面での学会や研究会が開催されるようになった。そのため、国内における研究発表や研究調査を目的として旅費を支出したが、国外への旅費支出は0であった。 令和5年度は、国外への研究成果発表を目的とした旅費、音声合成システムの構築など計算負荷の大きい処理を行うためのGPU搭載の計算機の購入、および論文誌への投稿費として助成金を使用する計画である。
|