2016 年度実施状況報告書

調音運動HMMとLSPデジタルフィルタを用いた音声合成

研究課題

研究課題/領域番号	16K00234
研究機関	東京理科大学
研究代表者	桂田浩一東京理科大学, 理工学部情報科学科, 准教授 (80324490)
研究分担者	新田恒雄早稲田大学, グリーン・コンピューティング・システム研究機構, 客員上級研究員(研究院客員教授) (70314101) 金澤靖豊橋技術科学大学, 工学(系)研究科(研究院), 准教授 (50214432) [辞退]
研究期間 (年度)	2016-04-01 – 2019-03-31
キーワード	声質変換 / LSPパラメータ / AutoEncoder
研究実績の概要	平成28年度はAutoEncoderを用いたLSP変換による話者変換について，予備的検討を行った．具体的には，これまで検討してきた音声合成システムから生成されるLSPパラメータ（声道形状パラメータ）を目的話者の音声のLSPパラメータに変換することにより声質を変換する手法を試みた．平成28年度には特に母音のLSPパラメータの変換による話者変換を検討した．まず，目的話者の日本語5母音をそれぞれ1秒ずつ収録し，これらからLSPパラメータを取得した．続いて，合成システムから生成される同一母音のLSPパラメータと収録した母音のLSPパラメータでペアを作り，パラレルデータとした．さらに，オリジナルのLSPパラメータを圧縮・再構成するAutoEncoderを作成し，そのAutoEncoderの出力値を変換する多層ニューラルネットワークを，パラレルデータを用いて学習することにより，目的話者のLSPパラメータを生成するニューラルネットワークを構築した．最後に，このニューラルネットワークから生成された目的話者のLSPパラメータに残差信号（平成28年度はパルスとノイズを用いた簡易な信号を用いた）を加え，デジタルフィルタを通すことにより目的話者の合成音を生成するシステムを構築した．実験の結果，オリジナルの音声と比較して本手法による合成音が僅かに目的話者の音声に近いという結果が得られた．しかし，合成音の音質は十分に良好ではなかったため，今後，LSPパラメータ，および残差信号の更なる改良が必要である．
現在までの達成度 (区分)	現在までの達成度 (区分) 3: やや遅れている理由当初の計画では予定に無かった研究代表者の異動があったため，計画上で研究代表者と共同で研究を行う予定であった大学院生が不在の状況になった．このため，平成28年度に実施予定であった，(i)RNNを用いたLSPの平滑化による音質向上，(ii)残差信号の平滑化による音質向上，(iii)AutoEncoderを用いたLSP変換による話者変換，のうち，(iii)については進捗があったものの，(i)と(ii)の研究には十分に取り組むことができなかった．
今後の研究の推進方策	平成29年度も研究代表者と共同で研究を行う予定であった大学院生が不在の状況が継続するため，進捗に若干の遅延が見込まれる．合成システムの開発に大学院生の協力が得られないため，平成29年度は当初の研究計画から内容を変更し，大学院生が不在でも進捗が期待できる調音運動データベースの拡充，およびそれを用いたHMMの再構築を主に行う予定である．そのために，調音運動を収録する装置を運用している九州大学の鏑木教授と共同研究の形を取り，磁気センサシステムを用いた調音運動データベースの構築を進める．また，音声学に造詣の深い中央大学の牧野教授を新たに研究分担者に迎え，調音運動と同時に収録した音声データに対してラベリングを行う．これにより，調音運動と単音レベルでのラベリングが施されたこれまでにない詳細な音声データベースを構築することを目指す．収録音声はATR503文を予定しており，男女複数人のデータを収録することを計画している．その後，収録したデータベースを用いて，調音運動を特徴量，単音を状態とするHMMを構築し，さらに調音運動⇔音声変換ニューラルネットワークを構築する．これらを用いて，簡単な単音系列認識実験を行う．合成システムの改良については大学院生が不在であるため，研究代表者が可能な範囲で取り組む予定である．AutoEncoderを用いたLSP変換による話者変換を対象に，LSP平滑化，残差信号平滑化に取り組みたい．
次年度使用額が生じた理由	平成28年度は研究代表者の異動が生じたため，当初計画の研究活動が一部実施できなかった．このため，平成28年度分を平成29年度以降に使用することにした．
次年度使用額の使用計画	平成29年度には情報収集を行う為の旅費を中心に使用する．また，データベース構築に際して人件費が生じた場合には，それにも利用する予定である．

研究成果
(10件)

すべて 2017 2016

すべて雑誌論文 (1件) (うち国際共著 1件、査読あり 1件) 学会発表 (9件) (うち国際学会 3件)

[雑誌論文] Using Reversed Sequences and Grapheme Generation Rules to Extend the Feasibility of a Phoneme Transition Network-based Grapheme-to-Phoneme Conversion2016
- 著者名/発表者名
  Seng Kheang, Kouichi Katsurada, Yurie Iribe and Tsuneo Nitta
- 雑誌名
  
  IEICE Transaction on Information and System
  
  巻: E99-D ページ: 1182-1192
- DOI
  10.1587/transinf.2015EDP7349
- 査読あり / 国際共著
[学会発表] Suffix Arrayを用いた高速STDにおけるキーワード分割の最適化に関する検討2017
- 著者名/発表者名
  桂田浩一
- 学会等名
  日本音響学会2017年春季研究発表会
- 発表場所
  明治大学（生田キャンパス）
- 年月日
  2017-03-15 – 2017-03-17
[学会発表] 日本語音節発話・想起時の脳波解析2017
- 著者名/発表者名
  浅原康平，中根丈司，神崎卓丸，桂田浩一，杉本俊二，新田恒雄，堀川順生
- 学会等名
  日本音響学会2017年春季研究発表会
- 発表場所
  明治大学（生田キャンパス）
- 年月日
  2017-03-15 – 2017-03-17
[学会発表] 発話時と想起時の脳波による日本語短音節認識の比較2017
- 著者名/発表者名
  神崎卓丸，浅原康平，中根丈司，桂田浩一，杉本俊二，堀川順生，新田恒雄
- 学会等名
  日本音響学会2017年春季研究発表会
- 発表場所
  明治大学（生田キャンパス）
- 年月日
  2017-03-15 – 2017-03-17
[学会発表] 顔画像の対称3D-AAMによる顔方向非依存な発話認識2017
- 著者名/発表者名
  渡辺拓也，桂田浩一，金澤靖
- 学会等名
  電子情報通信学会技術研究報告，PRMU2016-127
- 発表場所
  京都大学
- 年月日
  2017-01-19 – 2017-01-20
[学会発表] EEG during Japanese syllable recall and speech tasks2016
- 著者名/発表者名
  Kohei Asahara, Jozi Nakane, Takumaru Kanzaki, Shunji Sugimoto, Kouich Katsurada, Tsuneo Nitta, and Junsei Horikawa
- 学会等名
  The 3rd Annual Meeting of the Society for Bioacoustics
- 発表場所
  Tahara, Japan
- 年月日
  2016-12-10 – 2016-12-11
- 国際学会
[学会発表] Japanese monosyllable recognition from EEG2016
- 著者名/発表者名
  Takumaru Kanzaki, Shunji Sugimoto, Kouich Katsurada, Junsei Horikawa, and Tsuneo Nitta
- 学会等名
  The 3rd Annual Meeting of the Society for Bioacoustics
- 発表場所
  Tahara, Japan
- 年月日
  2016-12-10 – 2016-12-11
- 国際学会
[学会発表] Lip Reading from Multi View Facial Images Using 3D-AAM2016
- 著者名/発表者名
  Takuya Watanabe, Kouichi Katsurada, and Yasushi Kanazawa
- 学会等名
  ACCV2016 Workshops
- 発表場所
  Taipei, Taiwan
- 年月日
  2016-11-20 – 2016-11-24
- 国際学会
[学会発表] 日本語単音節発話時と想起時の脳波解析2016
- 著者名/発表者名
  浅原康平，中根丈司，神崎卓丸，中澤香太，桂田浩一，杉本俊二，新田恒雄，堀川順生
- 学会等名
  日本音響学会2016年秋季研究発表会
- 発表場所
  富山大学五福キャンパス
- 年月日
  2016-09-14 – 2016-09-16
[学会発表] 脳波からの日本語単音節認識方式の検討2016
- 著者名/発表者名
  神崎卓丸，浅原康平，中根丈司，中澤香太，桂田浩一，杉本俊二，堀川順生，新田恒雄
- 学会等名
  日本音響学会2016年秋季研究発表会
- 発表場所
  富山大学五福キャンパス
- 年月日
  2016-09-14 – 2016-09-16

2016 年度 実施状況報告書

調音運動HMMとLSPデジタルフィルタを用いた音声合成

研究代表者

桂田 浩一 東京理科大学, 理工学部情報科学科, 准教授 (80324490)

現在までの達成度 (区分)

理由

研究成果

[雑誌論文] Using Reversed Sequences and Grapheme Generation Rules to Extend the Feasibility of a Phoneme Transition Network-based Grapheme-to-Phoneme Conversion2016

著者名/発表者名

雑誌名

DOI

[学会発表] Suffix Arrayを用いた高速STDにおけるキーワード分割の最適化に関する検討2017

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] 日本語音節発話・想起時の脳波解析2017

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] 発話時と想起時の脳波による日本語短音節認識の比較2017

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] 顔画像の対称3D-AAMによる顔方向非依存な発話認識2017

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] EEG during Japanese syllable recall and speech tasks2016

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] Japanese monosyllable recognition from EEG2016

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] Lip Reading from Multi View Facial Images Using 3D-AAM2016

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] 日本語単音節発話時と想起時の脳波解析2016

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] 脳波からの日本語単音節認識方式の検討2016

著者名/発表者名

学会等名

発表場所

年月日

2016 年度実施状況報告書

桂田浩一東京理科大学, 理工学部情報科学科, 准教授 (80324490)