Development of a mutual conversion method between face image and voice during speech

Research Project

Project/Area Number	22K12916
Research Category	Grant-in-Aid for Scientific Research (C)
Allocation Type	Multi-year Fund
Section	一般
Review Section	Basic Section 90150:Medical assistive technology-related
Research Institution	Osaka Institute of Technology
Principal Investigator	鈴木基之大阪工業大学, 情報科学部, 教授 (30282015)
Project Period (FY)	2022-04-01 – 2026-03-31
Project Status	Granted (Fiscal Year 2023)
Budget Amount *help	¥3,640,000 (Direct Cost: ¥2,800,000、Indirect Cost: ¥840,000) Fiscal Year 2025: ¥650,000 (Direct Cost: ¥500,000、Indirect Cost: ¥150,000) Fiscal Year 2024: ¥910,000 (Direct Cost: ¥700,000、Indirect Cost: ¥210,000) Fiscal Year 2023: ¥1,170,000 (Direct Cost: ¥900,000、Indirect Cost: ¥270,000) Fiscal Year 2022: ¥910,000 (Direct Cost: ¥700,000、Indirect Cost: ¥210,000)
Keywords	自動読話 / 音声生成 / 話者適応 / Lip2Wav / 学習済画像分類モデル / 個人性の影響 / 無発声音声対話システム / サイレント音声認識 / 読話
Outline of Research at the Start	本研究では，顔画像を入力とし，それに対応する音声波形を出力する変換モデルを構築する。その際，入出力の特徴量として何が重要なのかを検討する。その後逆変換モデルも構築し，実際に聴覚障害者等の人々にも利用してもらうことで実用に耐える性能を持つシステムの開発を目的とする。こうして高精度相互変換法を確立することで，無発声音声対話システムや聴覚障害者のための顔画像提示システム等，新たなコミュニケーションツールの基盤技術を確立する。また読話を行う上で何が重要なのか，どこに注目しているのか，といった知見を得ることができるため，読話技術修得の普及にも貢献することができる。
Outline of Annual Research Achievements	唇動画像から音声生成を行う深層モデルは複雑なモデル形状であるため，大規模なデータでの学習が必要となる。しかし，そうしたデータベースを準備するのは大変であり，また話者に対する汎用性の検討も必要となる。そこで今年度は，ふたつの観点から検討を行った。まずは，唇動画像から画像特徴量を抽出する部分において，一般の画像認識用に学習されたモデルを流用する可能性の検討を行った。画像認識については非常に大規模なデータベースが整備され，これを用いた高精度認識モデルが開発されている。そこでこうしたモデルを唇動画像からの特徴量抽出器に応用した。画像認識モデルであるResNetとVisionTransformerを使って特徴量を抽出したところ，独自のネットワークを学習したものと比較して音声品質の客観的指標を1割程度改善することができた。しかし，生成した音声の発話内容は理解できない品質の物が多く，他の部分も改善が必要であることがわかった。次に，特定話者のデータで学習されたモデルについて，話者に対する汎用性の検討を行った。英語音声についてはLip2Wavというモデルが提案されており，高精度に音声が生成できる事が報告されている。このモデルをベースとして実験を行った。英語話者用モデルをそのまま用いて日本語話者の音声を生成させたところ，およそ日本語には聞こえない音声が生成され，汎用性はほほないことがわかった。そこで1名の日本語話者データを用いて再学習を行ったところ，かなり聞きとれる音声を生成することができた。更に別の日本語話者データを用いて再学習させたところ，その話者の声質も再現できることがわかった。しかし，学習に用いなかった話者のデータではまともな音声が生成されず，話者に対する依存性が非常に強いモデルしか得られない事がわかった。
Current Status of Research Progress	Current Status of Research Progress 2: Research has progressed on the whole more than it was originally planned. Reason 唇動画像からの音声生成法について，有効と思われるモデル形状を検討し，ある程度の品質で音声が得られるようになった。また話者に対する汎用性についても検討を行い，その特性についての知見を得ることができた。そのため，更に検討を重ねていくことで，より品質の高い音声生成法を開発していく事が可能であると思われる。なお，当初の研究計画では本年度中に唇動画像からの音声生成法について確立することとなっていた。その意味では研究に遅れが生じているが，現状までに得られた様々な知見等を考えれば，遅れを取り戻すことは十分可能であると考えている。
Strategy for Future Research Activity	来年度は，引き続き唇動画像から音声を生成する方法について研究を行い，高精度な音声を生成することを目指す。今年度の研究において画像分類モデルの利用がある程度有効であることが示されたことから，Lip2Wavに画像分類モデルを導入する方法を検討する。更に，日本語用の音声合成モデルの一部を流用することで，生成される音声の自然性を向上させ，より聞きとりやすい音声の生成を目指す。また当初の研究計画にあるとおり，音声から唇動画像を生成する方法の検討についても着手する。Wav2Lipをベースとし，その性能を評価するとともに，聴覚障害者に対して聞きとりの補助情報となり得るか，といった点についても検討を行っていく。