最終年度は、前年度までの成果をもとに、主に音声情報を用いない音声認識(無発声音声認識)であっても音声を用いた音声認識と同様に日本語文の認識を実現する手法を検討した。また、発声補助デバイス開発の基礎検討として、話者の感情推定及びテキストからの音声合成についても取り組んだ。 無発声音声認識については音素を単位として文章を認識するために、前年度の成果をもとに認識に有効な深層ニューラルネットワーク(DNN)について検討した。DNNの汎化性能を向上させることで、学習に用いた文章ではあるが未知の話者であっても0.3程度の音素誤り率が得られることがあった。話者の感情推定についてはカメラにより撮影した映像から心拍変動を計測する映像脈波計測技術及び皮膚電気反応を組み合わせた手法について検討した。音声合成については、tacotron2とwaveglow及び転移学習を用いた音声合成システムを用いて合成された音声の音質、話者性、明瞭性について検討した。ただし、感情推定及び音声合成については十分なデータでの検証ができていないため、引き続き、データ収集及び性能の検証が必要である。 本研究では、研究期間全体を通して声帯を除去するなど発声が困難となった人の発話の補助や、既存の音声認識を補助するシステムの検討を目的とした。結果として、音声を用いることなく音素単位での文章認識を実現するための技術について検討ができた。また、発声補助デバイスとして実現することを考えた場合、スマートフォンなどの小型デバイスに搭載されているカメラに加えて、指の皮膚電気抵抗を計測するセンサを搭載することで、利用者の負担となることなく、発話内容及び感情を同時推定するための基礎検証ができた。
|