発話動作を起点とした音声生成による代用発声技術の実現

研究課題

研究課題/領域番号	21K11965
研究種目	基盤研究(C)
配分区分	基金
応募区分	一般
審査区分	小区分61010:知覚情報処理関連
研究機関	九州大学
研究代表者	鏑木時彦九州大学, 芸術工学研究院, 教授 (30325568)
研究期間 (年度)	2021-04-01 – 2024-03-31
研究課題ステータス	完了 (2023年度)
配分額 *注記	4,160千円 (直接経費: 3,200千円、間接経費: 960千円) 2023年度: 780千円 (直接経費: 600千円、間接経費: 180千円) 2022年度: 1,690千円 (直接経費: 1,300千円、間接経費: 390千円) 2021年度: 1,690千円 (直接経費: 1,300千円、間接経費: 390千円)
キーワード	音声合成 / 代用発声 / 調音運動 / 口唇動画 / 機械学習 / ニューラルネットワーク / 発声障害 / 転移学習 / トランスフォーマー / リアルタイムMRI / 敵対的生成ネットワーク / MRI / 系列変換モデル / 調音観測
研究開始時の研究の概要	本研究では、喉頭疾患による発声障害者が音声コミュニケーションを維持できるようにするために、発話時の口の動きだけから音声を合成し、意図の伝達を可能にする、代用発声技術を検討する。システムへ入力される発話動作から機械学習によって音声を生成するため、口唇動画とリアルタイムMRIを用いて、複数話者の調音・音声パラレルコーパス作成を行う。さらに、畳み込み層を基としてEnd-to-endで了解性の高い音声を生成する検討を行う。
研究成果の概要	本研究では、喉頭摘出者が音声コミュニケーションを維持するための代用発声技術を創出することを目的として、口唇運動から音声波形を生成する合成モデルの検討、ならびにそのモデルを機械学習で実現するための音声コーパス作成を行った。合成モデルは低次元の音声特徴量を求めるエンコーダーと、メルスペクトログラムを推定するデコーダーから構成される。実験の結果、口腔の音響特性に加えて、アクセントやイントネーションを形成するピッチパタンを予測可能であり、十分に了解できる音声を合成できた。並行して、音声からリアルタイムMRIで測定した調音運動を復元するモデルを検討した。
研究成果の学術的意義や社会的意義	喉頭癌などの重度の疾患で喉頭を摘出した場合、その後の一生において日常のコミュニケーションに大きな支障をきたす。喉頭摘出者の代用発声法としては、電気式人工喉頭や食道の粘膜を声帯の代わりに振動させる食道発声などがあるが、それぞれ、抑揚のない機械的な発声になる、胃に空気を取り込むため高齢者では習得が難しいなどの問題がある。超高齢化した社会状況に鑑みても、喉頭疾患によるコミュニケーションの喪失に対処し得る情報技術の創出は不可欠であり、本研究で検討した新しい代用発声技術が意味を持つと考えられる。

報告書

(4件)

研究成果
(18件)

すべて 2024 2023 2022 2021 その他

すべて雑誌論文 (4件) (うち査読あり 3件、オープンアクセス 2件) 学会発表 (10件) (うち国際学会 1件) 図書 (1件) 備考 (3件)

[雑誌論文] Numerical method for analyzing steady-state oscillation in trumpets2023
- 著者名/発表者名
  Kaburagi Tokihiko、Kuroki Chiho、Hidaka Shunsuke、Ishikawa Satoshi
- 雑誌名
  
  Acoustical Science and Technology
  
  巻: 44 号: 3 ページ: 269-280
- DOI
  10.1250/ast.44.269
- ISSN
  0369-4232, 1346-3969, 1347-5177
- 年月日
  2023-05-01
- 関連する報告書
  2023 実績報告書
- 査読あり / オープンアクセス
[雑誌論文] Vocal fold vibration of the whistle register observed by high-speed digital imaging2023
- 著者名/発表者名
  Kato Hikari、Lee Yogaku、Wakamiya Kohei、Nakagawa Takashi、Kaburagi Tokihiko
- 雑誌名
  
  Journal of Voice
  
  巻: -
- DOI
  10.1016/j.jvoice.2023.08.026
- 関連する報告書
  2023 実績報告書
- 査読あり / オープンアクセス
[雑誌論文] Automatic GRBAS Scoring of Pathological Voices using Deep Learning and a Small Set of Labeled Voice Data2022
- 著者名/発表者名
  Shunsuke Hidaka, Yogaku Lee, Moe Nakanishi, Kohei Wakamiya, Takashi Nakagawa, Tokihiko Kaburagi
- 雑誌名
  
  Journal of Voice
  
  巻: - 号: 3 ページ: 846.e1-846.e23
- DOI
  10.1016/j.jvoice.2022.10.020
- 関連する報告書
  2022 実施状況報告書
- 査読あり
[雑誌論文] 磁気共鳴画像(MRI)を用いた管楽器吹奏時の声道計測2021
- 著者名/発表者名
  鏑木時彦
- 雑誌名
  
  日本音響学会誌
  
  巻: 77 ページ: 572-579
- NAID
  130008095429
- 関連する報告書
  2021 実施状況報告書
[学会発表] 転移学習を用いた少量データからの口唇動画音声合成2024
- 著者名/発表者名
  藤田直明，南汰翼，鏑木時彦
- 学会等名
  日本音響学会春季研究発表会
- 関連する報告書
  2023 実績報告書
[学会発表] 自己回帰及び非自己回帰モデルによる口唇動画を用いた音声合成2023
- 著者名/発表者名
  南汰翼，藤田直明，鏑木時彦
- 学会等名
  日本音響学会秋季研究発表会
- 関連する報告書
  2023 実績報告書
[学会発表] 高速度ディジタル撮像を用いたボーカルフライ声区における声帯振動の分析2023
- 著者名/発表者名
  加藤日花里，李庸學，鏑木時彦，若宮幸平
- 学会等名
  日本音響学会秋季研究発表会
- 関連する報告書
  2023 実績報告書
[学会発表] 発声における仮声帯振動の影響に関する数値流体解析2023
- 著者名/発表者名
  鏑木時彦，加藤日花里，李庸學
- 学会等名
  日本音響学会秋季研究発表会
- 関連する報告書
  2023 実績報告書
[学会発表] TransformerとGANを用いた口唇動画音声合成2023
- 著者名/発表者名
  藤田直明，南汰翼，鏑木時彦
- 学会等名
  日本音響学会春季研究発表会
- 関連する報告書
  2022 実施状況報告書
[学会発表] An investigation of the effectiveness of phase for audio classification2022
- 著者名/発表者名
  Shunsuke Hidaka, Kohei Wakamiya, and Tokihiko Kaburagi
- 学会等名
  IEEE ICASSP 2022
- 関連する報告書
  2022 実施状況報告書
- 国際学会
[学会発表] 自己回帰及び非自己回帰モデルによる口唇動画を用いた音声合成2022
- 著者名/発表者名
  南汰翼，藤田直明，鏑木時彦
- 学会等名
  日本音響学会九州支部　学生のための研究発表会
- 関連する報告書
  2022 実施状況報告書
[学会発表] 系列変換モデルを用いた口唇動画からの複数話者音声合成2022
- 著者名/発表者名
  江崎蓮, 鏑木時彦
- 学会等名
  日本音響学会春季研究発表会
- 関連する報告書
  2021 実施状況報告書
[学会発表] 系列変換モデルを用いた口唇動画・音声変換システムに関する研究2021
- 著者名/発表者名
  江崎蓮, 鏑木時彦
- 学会等名
  日本音響学会九州支部学生のための研究発表会
- 関連する報告書
  2021 実施状況報告書
[学会発表] 音分類課題において有効な位相情報の表現に関する検討2021
- 著者名/発表者名
  日髙駿介, 若宮幸平, 鏑木時彦
- 学会等名
  日本音響学会秋季研究発表会
- 関連する報告書
  2021 実施状況報告書
[図書] 音響学講座　音声（上）2021
- 著者名/発表者名
  滝口哲也（編著）鏑木時彦他（著）
- 総ページ数
  309
- 出版者
  コロナ社
- ISBN
  9784339013665
- 関連する報告書
  2021 実施状況報告書
[備考] 九州大学研究者情報
- URL
  https://hyoka.ofc.kyushu-u.ac.jp/search/details/K002357/index.html
- 関連する報告書
  2023 実績報告書
[備考] 九州大学　研究者情報
- URL
  https://hyoka.ofc.kyushu-u.ac.jp/search/details/K002357/research.html
- 関連する報告書
  2022 実施状況報告書
[備考] 九州大学研究者情報　鏑木時彦
- URL
  https://hyoka.ofc.kyushu-u.ac.jp/search/details/K002357/index.html
- 関連する報告書
  2021 実施状況報告書

発話動作を起点とした音声生成による代用発声技術の実現

研究代表者

鏑木 時彦 九州大学, 芸術工学研究院, 教授 (30325568)

4,160千円 (直接経費: 3,200千円、間接経費: 960千円)

報告書

研究成果

[雑誌論文] Numerical method for analyzing steady-state oscillation in trumpets2023

著者名/発表者名

雑誌名

DOI

ISSN

年月日

関連する報告書

[雑誌論文] Vocal fold vibration of the whistle register observed by high-speed digital imaging2023

著者名/発表者名

雑誌名

DOI

関連する報告書

[雑誌論文] Automatic GRBAS Scoring of Pathological Voices using Deep Learning and a Small Set of Labeled Voice Data2022

著者名/発表者名

雑誌名

DOI

関連する報告書

[雑誌論文] 磁気共鳴画像(MRI)を用いた管楽器吹奏時の声道計測2021

著者名/発表者名

雑誌名

NAID

関連する報告書

[学会発表] 転移学習を用いた少量データからの口唇動画音声合成2024

著者名/発表者名

学会等名

関連する報告書

[学会発表] 自己回帰及び非自己回帰モデルによる口唇動画を用いた音声合成2023

著者名/発表者名

学会等名

関連する報告書

[学会発表] 高速度ディジタル撮像を用いたボーカルフライ声区における声帯振動の分析2023

著者名/発表者名

学会等名

関連する報告書

[学会発表] 発声における仮声帯振動の影響に関する数値流体解析2023

著者名/発表者名

学会等名

関連する報告書

[学会発表] TransformerとGANを用いた口唇動画音声合成2023

著者名/発表者名

学会等名

関連する報告書

[学会発表] An investigation of the effectiveness of phase for audio classification2022

著者名/発表者名

学会等名

関連する報告書

[学会発表] 自己回帰及び非自己回帰モデルによる口唇動画を用いた音声合成2022

著者名/発表者名

学会等名

関連する報告書

[学会発表] 系列変換モデルを用いた口唇動画からの複数話者音声合成2022

著者名/発表者名

学会等名

関連する報告書

[学会発表] 系列変換モデルを用いた口唇動画・音声変換システムに関する研究2021

著者名/発表者名

学会等名

関連する報告書

[学会発表] 音分類課題において有効な位相情報の表現に関する検討2021

著者名/発表者名

学会等名

関連する報告書

[図書] 音響学講座 音声（上）2021

著者名/発表者名

総ページ数

出版者

ISBN

関連する報告書

[備考] 九州大学研究者情報

URL

関連する報告書

[備考] 九州大学 研究者情報

URL

関連する報告書

鏑木時彦九州大学, 芸術工学研究院, 教授 (30325568)

[図書] 音響学講座　音声（上）2021

[備考] 九州大学　研究者情報

[備考] 九州大学研究者情報　鏑木時彦