研究課題/領域番号 |
16K00234
|
研究機関 | 東京理科大学 |
研究代表者 |
桂田 浩一 東京理科大学, 理工学部情報科学科, 准教授 (80324490)
|
研究分担者 |
新田 恒雄 早稲田大学, グリーン・コンピューティング・システム研究機構, 客員上級研究員(研究院客員教授) (70314101)
金澤 靖 豊橋技術科学大学, 工学(系)研究科(研究院), 准教授 (50214432) [辞退]
|
研究期間 (年度) |
2016-04-01 – 2019-03-31
|
キーワード | 声質変換 / LSPパラメータ / AutoEncoder |
研究実績の概要 |
平成28年度はAutoEncoderを用いたLSP変換による話者変換について,予備的検討を行った.具体的には,これまで検討してきた音声合成システムから生成されるLSPパラメータ(声道形状パラメータ)を目的話者の音声のLSPパラメータに変換することにより声質を変換する手法を試みた.
平成28年度には特に母音のLSPパラメータの変換による話者変換を検討した.まず,目的話者の日本語5母音をそれぞれ1秒ずつ収録し,これらからLSPパラメータを取得した.続いて,合成システムから生成される同一母音のLSPパラメータと収録した母音のLSPパラメータでペアを作り,パラレルデータとした.さらに,オリジナルのLSPパラメータを圧縮・再構成するAutoEncoderを作成し,そのAutoEncoderの出力値を変換する多層ニューラルネットワークを,パラレルデータを用いて学習することにより,目的話者のLSPパラメータを生成するニューラルネットワークを構築した.最後に,このニューラルネットワークから生成された目的話者のLSPパラメータに残差信号(平成28年度はパルスとノイズを用いた簡易な信号を用いた)を加え,デジタルフィルタを通すことにより目的話者の合成音を生成するシステムを構築した.
実験の結果,オリジナルの音声と比較して本手法による合成音が僅かに目的話者の音声に近いという結果が得られた.しかし,合成音の音質は十分に良好ではなかったため,今後,LSPパラメータ,および残差信号の更なる改良が必要である.
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
3: やや遅れている
理由
当初の計画では予定に無かった研究代表者の異動があったため,計画上で研究代表者と共同で研究を行う予定であった大学院生が不在の状況になった.
このため,平成28年度に実施予定であった,(i)RNNを用いたLSPの平滑化による音質向上,(ii)残差信号の平滑化による音質向上,(iii)AutoEncoderを用いたLSP変換による話者変換,のうち,(iii)については進捗があったものの,(i)と(ii)の研究には十分に取り組むことができなかった.
|
今後の研究の推進方策 |
平成29年度も研究代表者と共同で研究を行う予定であった大学院生が不在の状況が継続するため,進捗に若干の遅延が見込まれる. 合成システムの開発に大学院生の協力が得られないため,平成29年度は当初の研究計画から内容を変更し,大学院生が不在でも進捗が期待できる調音運動データベースの拡充,およびそれを用いたHMMの再構築を主に行う予定である. そのために,調音運動を収録する装置を運用している九州大学の鏑木教授と共同研究の形を取り,磁気センサシステムを用いた調音運動データベースの構築を進める.また,音声学に造詣の深い中央大学の牧野教授を新たに研究分担者に迎え,調音運動と同時に収録した音声データに対してラベリングを行う.これにより,調音運動と単音レベルでのラベリングが施されたこれまでにない詳細な音声データベースを構築することを目指す.収録音声はATR503文を予定しており,男女複数人のデータを収録することを計画している. その後,収録したデータベースを用いて,調音運動を特徴量,単音を状態とするHMMを構築し,さらに調音運動⇔音声変換ニューラルネットワークを構築する.これらを用いて,簡単な単音系列認識実験を行う. 合成システムの改良については大学院生が不在であるため,研究代表者が可能な範囲で取り組む予定である.AutoEncoderを用いたLSP変換による話者変換を対象に,LSP平滑化,残差信号平滑化に取り組みたい.
|
次年度使用額が生じた理由 |
平成28年度は研究代表者の異動が生じたため,当初計画の研究活動が一部実施できなかった.このため,平成28年度分を平成29年度以降に使用することにした.
|
次年度使用額の使用計画 |
平成29年度には情報収集を行う為の旅費を中心に使用する.また,データベース構築に際して人件費が生じた場合には,それにも利用する予定である.
|