2018 Fiscal Year Annual Research Report
Speech synthesis based on articulatory movement HMM and LSP digital filter
Project/Area Number |
16K00234
|
Research Institution | Tokyo University of Science |
Principal Investigator |
桂田 浩一 東京理科大学, 理工学部情報科学科, 准教授 (80324490)
|
Co-Investigator(Kenkyū-buntansha) |
新田 恒雄 早稲田大学, グリーン・コンピューティング・システム研究機構, その他(招聘研究員) (70314101)
牧野 武彦 中央大学, 経済学部, 教授 (00269482)
金澤 靖 豊橋技術科学大学, 工学(系)研究科(研究院), 准教授 (50214432) [Withdrawn]
|
Project Period (FY) |
2016-04-01 – 2019-03-31
|
Keywords | 調音運動 / 音声合成 / データベース構築 |
Outline of Annual Research Achievements |
平成30年度は,平成29年度に引き続き,調音運動を利用した音声合成システムを開発するための基盤となる調音運動コーパスの整備に取り組んだ.昨年度に引き続き,九州大学の鏑木教授,若宮助教の協力の下,男性アナウンサーの音声データとEMA(ElectroMagnetic Articulography)による調音運動の収録を行った.調音運動の測定箇所は,上唇,下唇,下顎,舌尖,中舌,舌体の計6カ所で,収録の内容はATR音素バランス文503文,および英語発話23文である.昨年度に収録したデータは音声の一部に音割れ等が見られたため,本年度は同一人物で再収録を行った.また,平成30年度には女性アナウンサーについても二度の収録を行ったが,調音運動を計測するためのコイルが途中で外れる等のトラブルがあったため,女性アナウンサーのデータ収録は平成31年度以降に再度行う予定である. 収録が完了した男性アナウンサーのデータについては,研究分担者の牧野教授がIPA(International Phonetic Alphabet)の精密ラベリングを進めているところである. 調音運動‐音響特徴マッピングシステム(調音運動から合成音を推定するためのシステム)については,昨年度は時系列データのモデリングに適したLSTM(Long Short-Term Memory)による合成を試みたが,平成30年度はBi-directional LSTMでの合成を試みた.Bi-directional LSTMはLSTMと同様に時系列データのモデリングに適しているが,時間的に双方向の系列をモデル化できるという特徴がある.予備実験の結果,昨年度のLSTMを用いた手法と比較してBi-directional LSTMではより高品質な合成音が生成されることを確認した.
|