研究課題/領域番号 |
22K12916
|
研究機関 | 大阪工業大学 |
研究代表者 |
鈴木 基之 大阪工業大学, 情報科学部, 教授 (30282015)
|
研究期間 (年度) |
2022-04-01 – 2026-03-31
|
キーワード | 自動読話 / 音声生成 / 個人性の影響 |
研究実績の概要 |
本年度は,唇動画像から音声を生成する方法を確立するため,入力画像の種類の違いと話者に対する頑健性について検討を行った。 一般に唇動画像から発話内容を推定する研究においては,唇近辺を切り抜いた動画像が入力として用いられている。しかしこうした画像の中には,肌の色や唇の大きさの違い,といった個人性情報も含まれるため,特にモデル学習に利用した話者と異なる話者に対しては性能が劣化することが考えられる。そこで入力画像をより単純化し,個人性を排除した場合の性能について検討を行った。 唇画像から,唇の輪郭にそって20点の特徴点を抽出し,それの座標値をそのまま入力した場合と,特徴点間を直線で結び,唇を単純な図形で表現した上で入力した場合について性能を評価した。なお,音声生成に用いるニューラルネットワークの構造や音声特徴量は,本研究開始前に検討を行っていたモデルと同じものを利用した。また評価には,劣化した音声の了解度を測る指標のひとつであるSTOI(Short-Time Objective Intelligibility measure)を利用した。 1名の発話データでモデル学習と評価を行ったところ,入力に唇動画像を用いた時はSTOIが0.496であったのに対し,座標値は0.441,単純な図形表現は0.431と性能が劣化することがわかった。これは,入力データを単純にすることで,音声生成に必要な情報まで落ちてしまっているのが原因と思われる。 3名の発話データでモデルを学習し,学習に用いた話者(既知話者)と用いなかった話者(未知話者)に対する性能をそれぞれ評価したところ,唇動画像では未知話者に対する性能が,既知話者に対する性能と比較して24%程度劣化した。一方,特徴点の座標値や単純な図形表現を入力した場合は,17%程度の性能劣化にとどまっており,より話者に対する頑健性が得られていることがわかった。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
研究課題開始から2年をかけ,唇動画像から音声を生成する方法を確立する予定である。本年はその中で,入力特徴量の違いによる個人に対する頑健性の検討を行った。 生成される音声はSTOIが0.5以下と,まだまだ実用に耐え得る品質ではないが,入力特徴量に対する知見は得られてきたので,来年度も引き続き検討を重ねることで予定どおり研究をすすめていく事は可能であると思われる。
|
今後の研究の推進方策 |
来年度は,引き続き唇動画像から音声を生成する方法を開発する。 現在は直接スペクトル系列を生成し,そこから音声を合成しているが,より音声らしい音を生成するため,現在音声合成の分野で主流となっている encoder-decoder 型音声合成器の中間表現を出力し,音声合成器のdecoderを利用して音声波形に戻す,といった方法も検討する。 また,用いている深層学習モデルの形状についても検討を行う。現在はRNNの一種であるLSTMを用いているが,近年様々な分野で高い性能を示しているTransformerベースのモデル形状を採用し,より高精度な音声生成法を確立していく。
|
次年度使用額が生じた理由 |
計画当初は音声生成用モデルの学習に高性能なGPUが搭載された計算機を購入する予定であったが,比較的小規模な実験において検証を行ったこともあり,既存の計算機を利用して実験を行うことができた。そのため,予算に残額が生じることとなった。 来年度は深層学習モデルの構造について検討を行う必要があるため,より大規模な実験を数多く行う必要がある。そこで,今年度購入しなかった計算機を購入する予定である。
|