本研究は、ガンなどの喉頭疾患による発声障害者が音声コミュニケーションを維持するための代用発声技術の実現を目的とする。喉頭疾患では、口腔の調音器官は維持されるため、通常の発話時の口唇の動きから音声を合成することで、意図の伝達が可能になる。具体的には、口唇運動を撮影した動画をもとに、機械学習によってEnd-to-endで音声波形を生成することを目的とする。 最終年度は、口唇動画からの音声合成に関して、既存の合成モデルを高度化するための検討を行った。本合成法は機械学習に基づくため、口唇動画と音声のパラレルデータセットが大量に必要になる。現時点で得られているデータセットは本課題で収集したもので、約3900個の短文章からなり、日本語のデータセットとしては比較的大規模と言えるものの、英語音声で収集された海外のデータセットと比較するとまだ十分とは言えない。データセットの規模と品質は合成音の品質に直結するため、学習に利用可能なデータ量が少ない制約下での有効な学習法を確立することは重要である。 本研究の合成モデルは、自然言語処理などで用いられるトランスフォーマーを基としており、エンコーダーとデコーダーから構成される。テキストと音声からなるパラレルデータは既存の大規模なオープンリソースが利用できるため、これらのエンコーダー、デコーダーを別のタスク課題に対して学習し、転移学習によって口唇動画音声合成に適用する検討を行った。エンコーダーについてはテキスト音声合成、デコーダーについては音声スペクトルを自己復元するネットワークを学習し、口唇動画音声合成に転移学習した。さらに、エンコーダー出力の中間的な特徴量をベクトル量子化によって離散化、情報圧縮することを試みた。転移学習とベクトル量子化の効果を種々のデータ量に対して比較することで、それぞれの手法の有効性を客観評価指標によって示すことができた。
|