2021 Fiscal Year Research-status Report
発話動作を起点とした音声生成による代用発声技術の実現
Project/Area Number |
21K11965
|
Research Institution | Kyushu University |
Principal Investigator |
鏑木 時彦 九州大学, 芸術工学研究院, 教授 (30325568)
|
Project Period (FY) |
2021-04-01 – 2024-03-31
|
Keywords | 代用発声 / 音声合成 / 調音運動 / MRI / 機械学習 / 系列変換モデル |
Outline of Annual Research Achievements |
本課題では、喉頭摘出者の代用音声の実現を目指して、調音器官の運動から音声を生成するシステム開発をおこなう。このシステムは機械学習に基づくため、調音運動と音声を同時に収録したパラレルコーパスを多様な音素文脈について構築することが重要となる。さらに本研究では、調音運動と音声という時系列データの変換に着目し、自然言語処理の分野で急速に発展し他分野への応用が広がっている系列変換モデルを中核としてシステムを構築する。 2021年度は、パラレルコーパス構築に関して、リアルタイムMRIを用いた観測実験と、機械学習を用いたMRIノイズの除去に関する検討をおこなった。観測実験は、京都府にあるATR Promotions社脳活動イメージングセンタにて、3テスラの装置を有償で使用し、4回分の測定をおこなった。その結果、音素文脈を考慮した503個の文章セットについて、女性話者1名のデータ収集と、もう1名の一部のデータ収集をおこなうことができた。後者については、2022年度にさらに2回の測定実験をおこない、文章セットすべての収録を完了する計画である。また、MRI撮像と同時に収録した音声には、装置が発生する雑音が重畳する。この雑音を除去するため、畳み込み層の積層からなるネットワーク構造を有するディープニューラルネットワークを検討し、有効性を確認した。 調音運動からの音声合成システムに関しては、系列変換モデルに基づいたエンコーダー・デコーダー構造とし、さらにデコーダーにゲート構造などを持たせることで、品質改善を図った。システムの入力は口唇動画、出力はボコーダーWorldの音響特徴量とすることで、了解性の高い合成音声を得られることを確認した。さらに、このシステムを基として、複数話者の音声を合成するための予備検討をおこなった。2022年度は、パラレルデータの収集を含め、複数話者化をさらに進める計画である。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
調音運動と音声を同時に収録したパラレルコーパスの収集、とくにリアルタイムMRIを用いた観測実験については、当初、1名分のデータ収集(503文章)に4回の測定実験が必要と見込んでいたが、撮像プロセスなどの改良によって、3回の測定実験で収録可能となった。そこで、2021年度は、女性話者1名のデータ収集と、もう1名の一部のデータ収集をおこなうことができた。後者については、2022年度にさらに2回の測定実験をおこない、文章セットすべての収録を完了する計画である。 調音運動からの音声合成システムに関しては、口唇動画を入力として、ボコーダーWorldの音響特徴量を予測することで、了解性の高い合成音声を得られることが確認できた。これによって、システムの基本的なネットワーク構造を確定することができた。さらに、この音声合成システムの柔軟性をより高めるため、特定話者だけではなく、複数話者の音声を合成する可能性について検討を進めた。学習用データの収集がやや不足していたため、必ずしも十分な結果が得られたわけではないが、複数話者の合成に関しても客観評価、主観評価を踏まえて有効性を検証することができ、学会発表まで行うことができた。
|
Strategy for Future Research Activity |
リアルタイムMRIを用いた調音運動と音声のパラレルデータの収集に関しては、京都府にあるATR Promotions社脳活動イメージングセンタにて、2022年度内に2回の測定実験を実施する計画である。これによって、音素文脈を考慮した503文章のデータセットを3名分について得ることができ、本課題の目標の1つを達成することができる。今後は、MRIノイズの除去などをおこない、パラレルコーパスとして完備する予定である。 他方、調音運動からの音声合成システムに関しては、複数話者についての検討を進める。このために、まず、より多数の話者について、口唇動画のデータ収集をおこなうことが必要となる。リアルタイムMRIを用いた測定実験が、当初の予定より少ない回数で収録可能であることがわかったので、研究予算に余裕が出る見込みである。この分を用いて、プロのナレーターを雇用し、より高品位な口唇動画のデータ収集を計画している。 複数話者の音声合成をおこなうには、いくつかの方法が考えられる。もっとも簡単なのは、口唇動画そのものに個人性が存在すると考えて、補助情報を使わない方法である。その他、one hot表現をデコーダーに補助特徴量として与える方法、音声から得られる話者ベクトル表現を補助特徴量とする方法、口唇動画から得られる話者ベクトル表現を補助特徴量とする方法が考えられる。今後は、客観評価、主観評価を踏まえてそれらの有効性を比較検討することが重要と考えている。
|
Causes of Carryover |
測定実験やデータ整理にかかる謝金を予定していたが、校費から支出したため。
|
Research Products
(6 results)