2016 Fiscal Year Research-status Report

調音運動HMMとLSPデジタルフィルタを用いた音声合成

Research Project

Project/Area Number	16K00234
Research Institution	Tokyo University of Science
Principal Investigator	桂田浩一東京理科大学, 理工学部情報科学科, 准教授 (80324490)
Co-Investigator(Kenkyū-buntansha)	新田恒雄早稲田大学, グリーン・コンピューティング・システム研究機構, 客員上級研究員(研究院客員教授) (70314101) 金澤靖豊橋技術科学大学, 工学(系)研究科(研究院), 准教授 (50214432) [Withdrawn]
Project Period (FY)	2016-04-01 – 2019-03-31
Keywords	声質変換 / LSPパラメータ / AutoEncoder
Outline of Annual Research Achievements	平成28年度はAutoEncoderを用いたLSP変換による話者変換について，予備的検討を行った．具体的には，これまで検討してきた音声合成システムから生成されるLSPパラメータ（声道形状パラメータ）を目的話者の音声のLSPパラメータに変換することにより声質を変換する手法を試みた．平成28年度には特に母音のLSPパラメータの変換による話者変換を検討した．まず，目的話者の日本語5母音をそれぞれ1秒ずつ収録し，これらからLSPパラメータを取得した．続いて，合成システムから生成される同一母音のLSPパラメータと収録した母音のLSPパラメータでペアを作り，パラレルデータとした．さらに，オリジナルのLSPパラメータを圧縮・再構成するAutoEncoderを作成し，そのAutoEncoderの出力値を変換する多層ニューラルネットワークを，パラレルデータを用いて学習することにより，目的話者のLSPパラメータを生成するニューラルネットワークを構築した．最後に，このニューラルネットワークから生成された目的話者のLSPパラメータに残差信号（平成28年度はパルスとノイズを用いた簡易な信号を用いた）を加え，デジタルフィルタを通すことにより目的話者の合成音を生成するシステムを構築した．実験の結果，オリジナルの音声と比較して本手法による合成音が僅かに目的話者の音声に近いという結果が得られた．しかし，合成音の音質は十分に良好ではなかったため，今後，LSPパラメータ，および残差信号の更なる改良が必要である．
Current Status of Research Progress	Current Status of Research Progress 3: Progress in research has been slightly delayed. Reason 当初の計画では予定に無かった研究代表者の異動があったため，計画上で研究代表者と共同で研究を行う予定であった大学院生が不在の状況になった．このため，平成28年度に実施予定であった，(i)RNNを用いたLSPの平滑化による音質向上，(ii)残差信号の平滑化による音質向上，(iii)AutoEncoderを用いたLSP変換による話者変換，のうち，(iii)については進捗があったものの，(i)と(ii)の研究には十分に取り組むことができなかった．
Strategy for Future Research Activity	平成29年度も研究代表者と共同で研究を行う予定であった大学院生が不在の状況が継続するため，進捗に若干の遅延が見込まれる．合成システムの開発に大学院生の協力が得られないため，平成29年度は当初の研究計画から内容を変更し，大学院生が不在でも進捗が期待できる調音運動データベースの拡充，およびそれを用いたHMMの再構築を主に行う予定である．そのために，調音運動を収録する装置を運用している九州大学の鏑木教授と共同研究の形を取り，磁気センサシステムを用いた調音運動データベースの構築を進める．また，音声学に造詣の深い中央大学の牧野教授を新たに研究分担者に迎え，調音運動と同時に収録した音声データに対してラベリングを行う．これにより，調音運動と単音レベルでのラベリングが施されたこれまでにない詳細な音声データベースを構築することを目指す．収録音声はATR503文を予定しており，男女複数人のデータを収録することを計画している．その後，収録したデータベースを用いて，調音運動を特徴量，単音を状態とするHMMを構築し，さらに調音運動⇔音声変換ニューラルネットワークを構築する．これらを用いて，簡単な単音系列認識実験を行う．合成システムの改良については大学院生が不在であるため，研究代表者が可能な範囲で取り組む予定である．AutoEncoderを用いたLSP変換による話者変換を対象に，LSP平滑化，残差信号平滑化に取り組みたい．
Causes of Carryover	平成28年度は研究代表者の異動が生じたため，当初計画の研究活動が一部実施できなかった．このため，平成28年度分を平成29年度以降に使用することにした．
Expenditure Plan for Carryover Budget	平成29年度には情報収集を行う為の旅費を中心に使用する．また，データベース構築に際して人件費が生じた場合には，それにも利用する予定である．

Research Products
(10 results)

All 2017 2016

All Journal Article (1 results) (of which Int'l Joint Research: 1 results, Peer Reviewed: 1 results) Presentation (9 results) (of which Int'l Joint Research: 3 results)

[Journal Article] Using Reversed Sequences and Grapheme Generation Rules to Extend the Feasibility of a Phoneme Transition Network-based Grapheme-to-Phoneme Conversion2016
- Author(s)
  Seng Kheang, Kouichi Katsurada, Yurie Iribe and Tsuneo Nitta
- Journal Title
  
  IEICE Transaction on Information and System
  
  Volume: E99-D Pages: 1182-1192
- DOI
  10.1587/transinf.2015EDP7349
- Peer Reviewed / Int'l Joint Research
[Presentation] Suffix Arrayを用いた高速STDにおけるキーワード分割の最適化に関する検討2017
- Author(s)
  桂田浩一
- Organizer
  日本音響学会2017年春季研究発表会
- Place of Presentation
  明治大学（生田キャンパス）
- Year and Date
  2017-03-15 – 2017-03-17
[Presentation] 日本語音節発話・想起時の脳波解析2017
- Author(s)
  浅原康平，中根丈司，神崎卓丸，桂田浩一，杉本俊二，新田恒雄，堀川順生
- Organizer
  日本音響学会2017年春季研究発表会
- Place of Presentation
  明治大学（生田キャンパス）
- Year and Date
  2017-03-15 – 2017-03-17
[Presentation] 発話時と想起時の脳波による日本語短音節認識の比較2017
- Author(s)
  神崎卓丸，浅原康平，中根丈司，桂田浩一，杉本俊二，堀川順生，新田恒雄
- Organizer
  日本音響学会2017年春季研究発表会
- Place of Presentation
  明治大学（生田キャンパス）
- Year and Date
  2017-03-15 – 2017-03-17
[Presentation] 顔画像の対称3D-AAMによる顔方向非依存な発話認識2017
- Author(s)
  渡辺拓也，桂田浩一，金澤靖
- Organizer
  電子情報通信学会技術研究報告，PRMU2016-127
- Place of Presentation
  京都大学
- Year and Date
  2017-01-19 – 2017-01-20
[Presentation] EEG during Japanese syllable recall and speech tasks2016
- Author(s)
  Kohei Asahara, Jozi Nakane, Takumaru Kanzaki, Shunji Sugimoto, Kouich Katsurada, Tsuneo Nitta, and Junsei Horikawa
- Organizer
  The 3rd Annual Meeting of the Society for Bioacoustics
- Place of Presentation
  Tahara, Japan
- Year and Date
  2016-12-10 – 2016-12-11
- Int'l Joint Research
[Presentation] Japanese monosyllable recognition from EEG2016
- Author(s)
  Takumaru Kanzaki, Shunji Sugimoto, Kouich Katsurada, Junsei Horikawa, and Tsuneo Nitta
- Organizer
  The 3rd Annual Meeting of the Society for Bioacoustics
- Place of Presentation
  Tahara, Japan
- Year and Date
  2016-12-10 – 2016-12-11
- Int'l Joint Research
[Presentation] Lip Reading from Multi View Facial Images Using 3D-AAM2016
- Author(s)
  Takuya Watanabe, Kouichi Katsurada, and Yasushi Kanazawa
- Organizer
  ACCV2016 Workshops
- Place of Presentation
  Taipei, Taiwan
- Year and Date
  2016-11-20 – 2016-11-24
- Int'l Joint Research
[Presentation] 日本語単音節発話時と想起時の脳波解析2016
- Author(s)
  浅原康平，中根丈司，神崎卓丸，中澤香太，桂田浩一，杉本俊二，新田恒雄，堀川順生
- Organizer
  日本音響学会2016年秋季研究発表会
- Place of Presentation
  富山大学五福キャンパス
- Year and Date
  2016-09-14 – 2016-09-16
[Presentation] 脳波からの日本語単音節認識方式の検討2016
- Author(s)
  神崎卓丸，浅原康平，中根丈司，中澤香太，桂田浩一，杉本俊二，堀川順生，新田恒雄
- Organizer
  日本音響学会2016年秋季研究発表会
- Place of Presentation
  富山大学五福キャンパス
- Year and Date
  2016-09-14 – 2016-09-16

2016 Fiscal Year Research-status Report

調音運動HMMとLSPデジタルフィルタを用いた音声合成

Principal Investigator

桂田 浩一 東京理科大学, 理工学部情報科学科, 准教授 (80324490)

Current Status of Research Progress

Reason

Research Products

[Journal Article] Using Reversed Sequences and Grapheme Generation Rules to Extend the Feasibility of a Phoneme Transition Network-based Grapheme-to-Phoneme Conversion2016

Author(s)

Journal Title

DOI

[Presentation] Suffix Arrayを用いた高速STDにおけるキーワード分割の最適化に関する検討2017

Author(s)

Organizer

Place of Presentation

Year and Date

[Presentation] 日本語音節発話・想起時の脳波解析2017

Author(s)

Organizer

Place of Presentation

Year and Date

[Presentation] 発話時と想起時の脳波による日本語短音節認識の比較2017

Author(s)

Organizer

Place of Presentation

Year and Date

[Presentation] 顔画像の対称3D-AAMによる顔方向非依存な発話認識2017

Author(s)

Organizer

Place of Presentation

Year and Date

[Presentation] EEG during Japanese syllable recall and speech tasks2016

Author(s)

Organizer

Place of Presentation

Year and Date

[Presentation] Japanese monosyllable recognition from EEG2016

Author(s)

Organizer

Place of Presentation

Year and Date

[Presentation] Lip Reading from Multi View Facial Images Using 3D-AAM2016

Author(s)

Organizer

Place of Presentation

Year and Date

[Presentation] 日本語単音節発話時と想起時の脳波解析2016

Author(s)

Organizer

Place of Presentation

Year and Date

[Presentation] 脳波からの日本語単音節認識方式の検討2016

Author(s)

Organizer

Place of Presentation

Year and Date

桂田浩一東京理科大学, 理工学部情報科学科, 准教授 (80324490)