• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 課題ページに戻る

2023 年度 実績報告書

発話動作を起点とした音声生成による代用発声技術の実現

研究課題

研究課題/領域番号 21K11965
研究機関九州大学

研究代表者

鏑木 時彦  九州大学, 芸術工学研究院, 教授 (30325568)

研究期間 (年度) 2021-04-01 – 2024-03-31
キーワード音声合成 / 口唇動画 / 発声障害 / 機械学習 / 転移学習 / トランスフォーマー
研究実績の概要

本研究は、ガンなどの喉頭疾患による発声障害者が音声コミュニケーションを維持するための代用発声技術の実現を目的とする。喉頭疾患では、口腔の調音器官は維持されるため、通常の発話時の口唇の動きから音声を合成することで、意図の伝達が可能になる。具体的には、口唇運動を撮影した動画をもとに、機械学習によってEnd-to-endで音声波形を生成することを目的とする。
最終年度は、口唇動画からの音声合成に関して、既存の合成モデルを高度化するための検討を行った。本合成法は機械学習に基づくため、口唇動画と音声のパラレルデータセットが大量に必要になる。現時点で得られているデータセットは本課題で収集したもので、約3900個の短文章からなり、日本語のデータセットとしては比較的大規模と言えるものの、英語音声で収集された海外のデータセットと比較するとまだ十分とは言えない。データセットの規模と品質は合成音の品質に直結するため、学習に利用可能なデータ量が少ない制約下での有効な学習法を確立することは重要である。
本研究の合成モデルは、自然言語処理などで用いられるトランスフォーマーを基としており、エンコーダーとデコーダーから構成される。テキストと音声からなるパラレルデータは既存の大規模なオープンリソースが利用できるため、これらのエンコーダー、デコーダーを別のタスク課題に対して学習し、転移学習によって口唇動画音声合成に適用する検討を行った。エンコーダーについてはテキスト音声合成、デコーダーについては音声スペクトルを自己復元するネットワークを学習し、口唇動画音声合成に転移学習した。さらに、エンコーダー出力の中間的な特徴量をベクトル量子化によって離散化、情報圧縮することを試みた。転移学習とベクトル量子化の効果を種々のデータ量に対して比較することで、それぞれの手法の有効性を客観評価指標によって示すことができた。

  • 研究成果

    (7件)

すべて 2024 2023 その他

すべて 雑誌論文 (2件) (うち査読あり 2件、 オープンアクセス 2件) 学会発表 (4件) 備考 (1件)

  • [雑誌論文] Vocal fold vibration of the whistle register observed by high-speed digital imaging2023

    • 著者名/発表者名
      Kato Hikari、Lee Yogaku、Wakamiya Kohei、Nakagawa Takashi、Kaburagi Tokihiko
    • 雑誌名

      Journal of Voice

      巻: - ページ: -

    • DOI

      10.1016/j.jvoice.2023.08.026

    • 査読あり / オープンアクセス
  • [雑誌論文] Numerical method for analyzing steady-state oscillation in trumpets2023

    • 著者名/発表者名
      Kaburagi Tokihiko、Kuroki Chiho、Hidaka Shunsuke、Ishikawa Satoshi
    • 雑誌名

      Acoustical Science and Technology

      巻: 44 ページ: 269~280

    • DOI

      10.1250/ast.44.269

    • 査読あり / オープンアクセス
  • [学会発表] 転移学習を用いた少量データからの口唇動画音声合成2024

    • 著者名/発表者名
      藤田直明,南汰翼,鏑木時彦
    • 学会等名
      日本音響学会春季研究発表会
  • [学会発表] 自己回帰及び非自己回帰モデルによる口唇動画を用いた音声合成2023

    • 著者名/発表者名
      南汰翼,藤田直明,鏑木時彦
    • 学会等名
      日本音響学会秋季研究発表会
  • [学会発表] 高速度ディジタル撮像を用いたボーカルフライ声区における声帯振動の分析2023

    • 著者名/発表者名
      加藤日花里,李庸學,鏑木時彦,若宮幸平
    • 学会等名
      日本音響学会秋季研究発表会
  • [学会発表] 発声における仮声帯振動の影響に関する数値流体解析2023

    • 著者名/発表者名
      鏑木時彦,加藤日花里,李庸學
    • 学会等名
      日本音響学会秋季研究発表会
  • [備考] 九州大学研究者情報

    • URL

      https://hyoka.ofc.kyushu-u.ac.jp/search/details/K002357/index.html

URL: 

公開日: 2024-12-25  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi