Development of a mutual conversion method between face image and voice during speech
Project/Area Number |
22K12916
|
Research Category |
Grant-in-Aid for Scientific Research (C)
|
Allocation Type | Multi-year Fund |
Section | 一般 |
Review Section |
Basic Section 90150:Medical assistive technology-related
|
Research Institution | Osaka Institute of Technology |
Principal Investigator |
鈴木 基之 大阪工業大学, 情報科学部, 教授 (30282015)
|
Project Period (FY) |
2022-04-01 – 2026-03-31
|
Project Status |
Granted (Fiscal Year 2022)
|
Budget Amount *help |
¥3,640,000 (Direct Cost: ¥2,800,000、Indirect Cost: ¥840,000)
Fiscal Year 2025: ¥650,000 (Direct Cost: ¥500,000、Indirect Cost: ¥150,000)
Fiscal Year 2024: ¥910,000 (Direct Cost: ¥700,000、Indirect Cost: ¥210,000)
Fiscal Year 2023: ¥1,170,000 (Direct Cost: ¥900,000、Indirect Cost: ¥270,000)
Fiscal Year 2022: ¥910,000 (Direct Cost: ¥700,000、Indirect Cost: ¥210,000)
|
Keywords | 自動読話 / 音声生成 / 個人性の影響 / 無発声音声対話システム / サイレント音声認識 / 読話 |
Outline of Research at the Start |
本研究では,顔画像を入力とし,それに対応する音声波形を出力する変換モデルを構築する。その際,入出力の特徴量として何が重要なのかを検討する。その後逆変換モデルも構築し,実際に聴覚障害者等の人々にも利用してもらうことで実用に耐える性能を持つシステムの開発を目的とする。 こうして高精度相互変換法を確立することで,無発声音声対話システムや聴覚障害者のための顔画像提示システム等,新たなコミュニケーションツールの基盤技術を確立する。また読話を行う上で何が重要なのか,どこに注目しているのか,といった知見を得ることができるため,読話技術修得の普及にも貢献することができる。
|
Outline of Annual Research Achievements |
本年度は,唇動画像から音声を生成する方法を確立するため,入力画像の種類の違いと話者に対する頑健性について検討を行った。 一般に唇動画像から発話内容を推定する研究においては,唇近辺を切り抜いた動画像が入力として用いられている。しかしこうした画像の中には,肌の色や唇の大きさの違い,といった個人性情報も含まれるため,特にモデル学習に利用した話者と異なる話者に対しては性能が劣化することが考えられる。そこで入力画像をより単純化し,個人性を排除した場合の性能について検討を行った。 唇画像から,唇の輪郭にそって20点の特徴点を抽出し,それの座標値をそのまま入力した場合と,特徴点間を直線で結び,唇を単純な図形で表現した上で入力した場合について性能を評価した。なお,音声生成に用いるニューラルネットワークの構造や音声特徴量は,本研究開始前に検討を行っていたモデルと同じものを利用した。また評価には,劣化した音声の了解度を測る指標のひとつであるSTOI(Short-Time Objective Intelligibility measure)を利用した。 1名の発話データでモデル学習と評価を行ったところ,入力に唇動画像を用いた時はSTOIが0.496であったのに対し,座標値は0.441,単純な図形表現は0.431と性能が劣化することがわかった。これは,入力データを単純にすることで,音声生成に必要な情報まで落ちてしまっているのが原因と思われる。 3名の発話データでモデルを学習し,学習に用いた話者(既知話者)と用いなかった話者(未知話者)に対する性能をそれぞれ評価したところ,唇動画像では未知話者に対する性能が,既知話者に対する性能と比較して24%程度劣化した。一方,特徴点の座標値や単純な図形表現を入力した場合は,17%程度の性能劣化にとどまっており,より話者に対する頑健性が得られていることがわかった。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
研究課題開始から2年をかけ,唇動画像から音声を生成する方法を確立する予定である。本年はその中で,入力特徴量の違いによる個人に対する頑健性の検討を行った。 生成される音声はSTOIが0.5以下と,まだまだ実用に耐え得る品質ではないが,入力特徴量に対する知見は得られてきたので,来年度も引き続き検討を重ねることで予定どおり研究をすすめていく事は可能であると思われる。
|
Strategy for Future Research Activity |
来年度は,引き続き唇動画像から音声を生成する方法を開発する。 現在は直接スペクトル系列を生成し,そこから音声を合成しているが,より音声らしい音を生成するため,現在音声合成の分野で主流となっている encoder-decoder 型音声合成器の中間表現を出力し,音声合成器のdecoderを利用して音声波形に戻す,といった方法も検討する。 また,用いている深層学習モデルの形状についても検討を行う。現在はRNNの一種であるLSTMを用いているが,近年様々な分野で高い性能を示しているTransformerベースのモデル形状を採用し,より高精度な音声生成法を確立していく。
|
Report
(1 results)
Research Products
(2 results)