2018 Fiscal Year Annual Research Report

Speech synthesis based on articulatory movement HMM and LSP digital filter

Research Project

Project/Area Number	16K00234
Research Institution	Tokyo University of Science
Principal Investigator	桂田浩一東京理科大学, 理工学部情報科学科, 准教授 (80324490)
Co-Investigator(Kenkyū-buntansha)	新田恒雄早稲田大学, グリーン・コンピューティング・システム研究機構, その他(招聘研究員) (70314101) 牧野武彦中央大学, 経済学部, 教授 (00269482) 金澤靖豊橋技術科学大学, 工学(系)研究科(研究院), 准教授 (50214432) [Withdrawn]
Project Period (FY)	2016-04-01 – 2019-03-31
Keywords	調音運動 / 音声合成 / データベース構築
Outline of Annual Research Achievements	平成30年度は，平成29年度に引き続き，調音運動を利用した音声合成システムを開発するための基盤となる調音運動コーパスの整備に取り組んだ．昨年度に引き続き，九州大学の鏑木教授，若宮助教の協力の下，男性アナウンサーの音声データとEMA(ElectroMagnetic Articulography)による調音運動の収録を行った．調音運動の測定箇所は，上唇，下唇，下顎，舌尖，中舌，舌体の計6カ所で，収録の内容はATR音素バランス文503文，および英語発話23文である．昨年度に収録したデータは音声の一部に音割れ等が見られたため，本年度は同一人物で再収録を行った．また，平成30年度には女性アナウンサーについても二度の収録を行ったが，調音運動を計測するためのコイルが途中で外れる等のトラブルがあったため，女性アナウンサーのデータ収録は平成31年度以降に再度行う予定である．収録が完了した男性アナウンサーのデータについては，研究分担者の牧野教授がIPA(International Phonetic Alphabet)の精密ラベリングを進めているところである．調音運動‐音響特徴マッピングシステム（調音運動から合成音を推定するためのシステム）については，昨年度は時系列データのモデリングに適したLSTM(Long Short-Term Memory)による合成を試みたが，平成30年度はBi-directional LSTMでの合成を試みた．Bi-directional LSTMはLSTMと同様に時系列データのモデリングに適しているが，時間的に双方向の系列をモデル化できるという特徴がある．予備実験の結果，昨年度のLSTMを用いた手法と比較してBi-directional LSTMではより高品質な合成音が生成されることを確認した．

Research Products
(3 results)

All Presentation (3 results)

[Presentation] 発話時脳波を利用した音声言語情報の識別2018
- Author(s)
  深井健大郎，大村英史，桂田浩一，平田里佳，入部百合絵，新田恒雄
- Organizer
  第5回サイレント音声認識ワークショップ
[Presentation] Active Appearance Modelsを用いた読唇2018
- Author(s)
  小口優人，大村英史，桂田浩一
- Organizer
  第5回サイレント音声認識ワークショップ
[Presentation] 学会報告（INTERSPEECH2018）2018
- Author(s)
  桂田浩一
- Organizer
  第5回サイレント音声認識ワークショップ