2021 Fiscal Year Research-status Report

発話動作を起点とした音声生成による代用発声技術の実現

Research Project

Project/Area Number	21K11965
Research Institution	Kyushu University
Principal Investigator	鏑木時彦九州大学, 芸術工学研究院, 教授 (30325568)
Project Period (FY)	2021-04-01 – 2024-03-31
Keywords	代用発声 / 音声合成 / 調音運動 / MRI / 機械学習 / 系列変換モデル
Outline of Annual Research Achievements	本課題では、喉頭摘出者の代用音声の実現を目指して、調音器官の運動から音声を生成するシステム開発をおこなう。このシステムは機械学習に基づくため、調音運動と音声を同時に収録したパラレルコーパスを多様な音素文脈について構築することが重要となる。さらに本研究では、調音運動と音声という時系列データの変換に着目し、自然言語処理の分野で急速に発展し他分野への応用が広がっている系列変換モデルを中核としてシステムを構築する。 2021年度は、パラレルコーパス構築に関して、リアルタイムMRIを用いた観測実験と、機械学習を用いたMRIノイズの除去に関する検討をおこなった。観測実験は、京都府にあるATR Promotions社脳活動イメージングセンタにて、３テスラの装置を有償で使用し、４回分の測定をおこなった。その結果、音素文脈を考慮した503個の文章セットについて、女性話者１名のデータ収集と、もう１名の一部のデータ収集をおこなうことができた。後者については、2022年度にさらに２回の測定実験をおこない、文章セットすべての収録を完了する計画である。また、MRI撮像と同時に収録した音声には、装置が発生する雑音が重畳する。この雑音を除去するため、畳み込み層の積層からなるネットワーク構造を有するディープニューラルネットワークを検討し、有効性を確認した。調音運動からの音声合成システムに関しては、系列変換モデルに基づいたエンコーダー・デコーダー構造とし、さらにデコーダーにゲート構造などを持たせることで、品質改善を図った。システムの入力は口唇動画、出力はボコーダーWorldの音響特徴量とすることで、了解性の高い合成音声を得られることを確認した。さらに、このシステムを基として、複数話者の音声を合成するための予備検討をおこなった。2022年度は、パラレルデータの収集を含め、複数話者化をさらに進める計画である。
Current Status of Research Progress	Current Status of Research Progress 2: Research has progressed on the whole more than it was originally planned. Reason 調音運動と音声を同時に収録したパラレルコーパスの収集、とくにリアルタイムMRIを用いた観測実験については、当初、１名分のデータ収集（503文章）に４回の測定実験が必要と見込んでいたが、撮像プロセスなどの改良によって、３回の測定実験で収録可能となった。そこで、2021年度は、女性話者１名のデータ収集と、もう１名の一部のデータ収集をおこなうことができた。後者については、2022年度にさらに２回の測定実験をおこない、文章セットすべての収録を完了する計画である。調音運動からの音声合成システムに関しては、口唇動画を入力として、ボコーダーWorldの音響特徴量を予測することで、了解性の高い合成音声を得られることが確認できた。これによって、システムの基本的なネットワーク構造を確定することができた。さらに、この音声合成システムの柔軟性をより高めるため、特定話者だけではなく、複数話者の音声を合成する可能性について検討を進めた。学習用データの収集がやや不足していたため、必ずしも十分な結果が得られたわけではないが、複数話者の合成に関しても客観評価、主観評価を踏まえて有効性を検証することができ、学会発表まで行うことができた。
Strategy for Future Research Activity	リアルタイムMRIを用いた調音運動と音声のパラレルデータの収集に関しては、京都府にあるATR Promotions社脳活動イメージングセンタにて、2022年度内に２回の測定実験を実施する計画である。これによって、音素文脈を考慮した503文章のデータセットを３名分について得ることができ、本課題の目標の１つを達成することができる。今後は、MRIノイズの除去などをおこない、パラレルコーパスとして完備する予定である。他方、調音運動からの音声合成システムに関しては、複数話者についての検討を進める。このために、まず、より多数の話者について、口唇動画のデータ収集をおこなうことが必要となる。リアルタイムMRIを用いた測定実験が、当初の予定より少ない回数で収録可能であることがわかったので、研究予算に余裕が出る見込みである。この分を用いて、プロのナレーターを雇用し、より高品位な口唇動画のデータ収集を計画している。複数話者の音声合成をおこなうには、いくつかの方法が考えられる。もっとも簡単なのは、口唇動画そのものに個人性が存在すると考えて、補助情報を使わない方法である。その他、one hot表現をデコーダーに補助特徴量として与える方法、音声から得られる話者ベクトル表現を補助特徴量とする方法、口唇動画から得られる話者ベクトル表現を補助特徴量とする方法が考えられる。今後は、客観評価、主観評価を踏まえてそれらの有効性を比較検討することが重要と考えている。
Causes of Carryover	測定実験やデータ整理にかかる謝金を予定していたが、校費から支出したため。

Research Products
(6 results)

All 2022 2021 Other

All Journal Article (1 results) Presentation (3 results) Book (1 results) Remarks (1 results)

[Journal Article] 磁気共鳴画像(MRI)を用いた管楽器吹奏時の声道計測2021
- Author(s)
  鏑木時彦
- Journal Title
  
  日本音響学会誌
  
  Volume: 77 Pages: 572-579
[Presentation] 系列変換モデルを用いた口唇動画からの複数話者音声合成2022
- Author(s)
  江崎蓮, 鏑木時彦
- Organizer
  日本音響学会春季研究発表会
[Presentation] 系列変換モデルを用いた口唇動画・音声変換システムに関する研究2021
- Author(s)
  江崎蓮, 鏑木時彦
- Organizer
  日本音響学会九州支部学生のための研究発表会
[Presentation] 音分類課題において有効な位相情報の表現に関する検討2021
- Author(s)
  日髙駿介, 若宮幸平, 鏑木時彦
- Organizer
  日本音響学会秋季研究発表会
[Book] 音響学講座　音声（上）2021
- Author(s)
  滝口哲也（編著）鏑木時彦他（著）
- Total Pages
  309
- Publisher
  コロナ社
- ISBN
  978-4-339-01366-5
[Remarks] 九州大学研究者情報　鏑木時彦
- URL
  https://hyoka.ofc.kyushu-u.ac.jp/search/details/K002357/index.html

2021 Fiscal Year Research-status Report

発話動作を起点とした音声生成による代用発声技術の実現

Principal Investigator

鏑木 時彦 九州大学, 芸術工学研究院, 教授 (30325568)

Current Status of Research Progress

Reason

Research Products

[Journal Article] 磁気共鳴画像(MRI)を用いた管楽器吹奏時の声道計測2021

Author(s)

Journal Title

[Presentation] 系列変換モデルを用いた口唇動画からの複数話者音声合成2022

Author(s)

Organizer

[Presentation] 系列変換モデルを用いた口唇動画・音声変換システムに関する研究2021

Author(s)

Organizer

[Presentation] 音分類課題において有効な位相情報の表現に関する検討2021

Author(s)

Organizer

[Book] 音響学講座 音声（上）2021

Author(s)

Total Pages

Publisher

ISBN

[Remarks] 九州大学研究者情報 鏑木時彦

URL

鏑木時彦九州大学, 芸術工学研究院, 教授 (30325568)

[Book] 音響学講座　音声（上）2021

[Remarks] 九州大学研究者情報　鏑木時彦