2023 Fiscal Year Research-status Report
Development of a mutual conversion method between face image and voice during speech
Project/Area Number |
22K12916
|
Research Institution | Osaka Institute of Technology |
Principal Investigator |
鈴木 基之 大阪工業大学, 情報科学部, 教授 (30282015)
|
Project Period (FY) |
2022-04-01 – 2026-03-31
|
Keywords | 自動読話 / 音声生成 / 話者適応 / Lip2Wav / 学習済画像分類モデル |
Outline of Annual Research Achievements |
唇動画像から音声生成を行う深層モデルは複雑なモデル形状であるため,大規模なデータでの学習が必要となる。しかし,そうしたデータベースを準備するのは大変であり,また話者に対する汎用性の検討も必要となる。そこで今年度は,ふたつの観点から検討を行った。 まずは,唇動画像から画像特徴量を抽出する部分において,一般の画像認識用に学習されたモデルを流用する可能性の検討を行った。画像認識については非常に大規模なデータベースが整備され,これを用いた高精度認識モデルが開発されている。そこでこうしたモデルを唇動画像からの特徴量抽出器に応用した。 画像認識モデルであるResNetとVisionTransformerを使って特徴量を抽出したところ,独自のネットワークを学習したものと比較して音声品質の客観的指標を1割程度改善することができた。しかし,生成した音声の発話内容は理解できない品質の物が多く,他の部分も改善が必要であることがわかった。 次に,特定話者のデータで学習されたモデルについて,話者に対する汎用性の検討を行った。英語音声についてはLip2Wavというモデルが提案されており,高精度に音声が生成できる事が報告されている。このモデルをベースとして実験を行った。 英語話者用モデルをそのまま用いて日本語話者の音声を生成させたところ,およそ日本語には聞こえない音声が生成され,汎用性はほほないことがわかった。そこで1名の日本語話者データを用いて再学習を行ったところ,かなり聞きとれる音声を生成することができた。更に別の日本語話者データを用いて再学習させたところ,その話者の声質も再現できることがわかった。しかし,学習に用いなかった話者のデータではまともな音声が生成されず,話者に対する依存性が非常に強いモデルしか得られない事がわかった。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
唇動画像からの音声生成法について,有効と思われるモデル形状を検討し,ある程度の品質で音声が得られるようになった。また話者に対する汎用性についても検討を行い,その特性についての知見を得ることができた。そのため,更に検討を重ねていくことで,より品質の高い音声生成法を開発していく事が可能であると思われる。 なお,当初の研究計画では本年度中に唇動画像からの音声生成法について確立することとなっていた。その意味では研究に遅れが生じているが,現状までに得られた様々な知見等を考えれば,遅れを取り戻すことは十分可能であると考えている。
|
Strategy for Future Research Activity |
来年度は,引き続き唇動画像から音声を生成する方法について研究を行い,高精度な音声を生成することを目指す。 今年度の研究において画像分類モデルの利用がある程度有効であることが示されたことから,Lip2Wavに画像分類モデルを導入する方法を検討する。更に,日本語用の音声合成モデルの一部を流用することで,生成される音声の自然性を向上させ,より聞きとりやすい音声の生成を目指す。 また当初の研究計画にあるとおり,音声から唇動画像を生成する方法の検討についても着手する。Wav2Lipをベースとし,その性能を評価するとともに,聴覚障害者に対して聞きとりの補助情報となり得るか,といった点についても検討を行っていく。
|
Causes of Carryover |
今年度のアルゴリズムの開発においては,大規模なモデルをいちから学習するのではなく,すでに学習されているモデルを効率的に流用する方法について検討を行った。そのため,新規に高性能なGPU搭載計算機を購入することなく,既存の計算機を利用することで研究を行うことができ,結果的に予算に残額が生じることとなった。 来年度は引き続き大規模モデルを流用しながら開発を行っていくが,開発したアルゴリズムのデモ機としてのPCの購入や,得られた成果を各種学会等で発表する際の旅費として活用していく予定である。
|