• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2023 Fiscal Year Annual Research Report

発話動作を起点とした音声生成による代用発声技術の実現

Research Project

Project/Area Number 21K11965
Research InstitutionKyushu University

Principal Investigator

鏑木 時彦  九州大学, 芸術工学研究院, 教授 (30325568)

Project Period (FY) 2021-04-01 – 2024-03-31
Keywords音声合成 / 口唇動画 / 発声障害 / 機械学習 / 転移学習 / トランスフォーマー
Outline of Annual Research Achievements

本研究は、ガンなどの喉頭疾患による発声障害者が音声コミュニケーションを維持するための代用発声技術の実現を目的とする。喉頭疾患では、口腔の調音器官は維持されるため、通常の発話時の口唇の動きから音声を合成することで、意図の伝達が可能になる。具体的には、口唇運動を撮影した動画をもとに、機械学習によってEnd-to-endで音声波形を生成することを目的とする。
最終年度は、口唇動画からの音声合成に関して、既存の合成モデルを高度化するための検討を行った。本合成法は機械学習に基づくため、口唇動画と音声のパラレルデータセットが大量に必要になる。現時点で得られているデータセットは本課題で収集したもので、約3900個の短文章からなり、日本語のデータセットとしては比較的大規模と言えるものの、英語音声で収集された海外のデータセットと比較するとまだ十分とは言えない。データセットの規模と品質は合成音の品質に直結するため、学習に利用可能なデータ量が少ない制約下での有効な学習法を確立することは重要である。
本研究の合成モデルは、自然言語処理などで用いられるトランスフォーマーを基としており、エンコーダーとデコーダーから構成される。テキストと音声からなるパラレルデータは既存の大規模なオープンリソースが利用できるため、これらのエンコーダー、デコーダーを別のタスク課題に対して学習し、転移学習によって口唇動画音声合成に適用する検討を行った。エンコーダーについてはテキスト音声合成、デコーダーについては音声スペクトルを自己復元するネットワークを学習し、口唇動画音声合成に転移学習した。さらに、エンコーダー出力の中間的な特徴量をベクトル量子化によって離散化、情報圧縮することを試みた。転移学習とベクトル量子化の効果を種々のデータ量に対して比較することで、それぞれの手法の有効性を客観評価指標によって示すことができた。

  • Research Products

    (7 results)

All 2024 2023 Other

All Journal Article (2 results) (of which Peer Reviewed: 2 results,  Open Access: 2 results) Presentation (4 results) Remarks (1 results)

  • [Journal Article] Vocal fold vibration of the whistle register observed by high-speed digital imaging2023

    • Author(s)
      Kato Hikari、Lee Yogaku、Wakamiya Kohei、Nakagawa Takashi、Kaburagi Tokihiko
    • Journal Title

      Journal of Voice

      Volume: - Pages: -

    • DOI

      10.1016/j.jvoice.2023.08.026

    • Peer Reviewed / Open Access
  • [Journal Article] Numerical method for analyzing steady-state oscillation in trumpets2023

    • Author(s)
      Kaburagi Tokihiko、Kuroki Chiho、Hidaka Shunsuke、Ishikawa Satoshi
    • Journal Title

      Acoustical Science and Technology

      Volume: 44 Pages: 269~280

    • DOI

      10.1250/ast.44.269

    • Peer Reviewed / Open Access
  • [Presentation] 転移学習を用いた少量データからの口唇動画音声合成2024

    • Author(s)
      藤田直明,南汰翼,鏑木時彦
    • Organizer
      日本音響学会春季研究発表会
  • [Presentation] 自己回帰及び非自己回帰モデルによる口唇動画を用いた音声合成2023

    • Author(s)
      南汰翼,藤田直明,鏑木時彦
    • Organizer
      日本音響学会秋季研究発表会
  • [Presentation] 高速度ディジタル撮像を用いたボーカルフライ声区における声帯振動の分析2023

    • Author(s)
      加藤日花里,李庸學,鏑木時彦,若宮幸平
    • Organizer
      日本音響学会秋季研究発表会
  • [Presentation] 発声における仮声帯振動の影響に関する数値流体解析2023

    • Author(s)
      鏑木時彦,加藤日花里,李庸學
    • Organizer
      日本音響学会秋季研究発表会
  • [Remarks] 九州大学研究者情報

    • URL

      https://hyoka.ofc.kyushu-u.ac.jp/search/details/K002357/index.html

URL: 

Published: 2024-12-25  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi