2018 年度研究成果報告書

調音運動HMMとLSPデジタルフィルタを用いた音声合成

研究課題

PDF

研究課題/領域番号	16K00234
研究種目	基盤研究(C)
配分区分	基金
応募区分	一般
研究分野	知覚情報処理
研究機関	東京理科大学
研究代表者	桂田浩一東京理科大学, 理工学部情報科学科, 准教授 (80324490)
研究分担者	新田恒雄早稲田大学, グリーン・コンピューティング・システム研究機構, その他(招聘研究員) (70314101) 牧野武彦中央大学, 経済学部, 教授 (00269482) 金澤靖豊橋技術科学大学, 工学(系)研究科(研究院), 准教授 (50214432)
研究協力者	鏑木時彦若宮幸平
研究期間 (年度)	2016-04-01 – 2019-03-31
キーワード	調音運動 / 音声合成 / データベース構築
研究成果の概要	人間の発声メカニズムに近い音声合成を実現するために，発話時の舌や唇の動作に基づいた合成方法を検討してきた．期間の前半では，口唇や舌の実際の動作ではなく，それらをパラメータ化したデータから音声を合成することを試みたが，より実際の人間の動作に近い音声合成を実現するために，期間の後半では口唇や舌の動作を収録するしてデータベースを作成することに取り組んだ．収録にはEMA(Electromagnetic Articulography)と呼ばれる特殊な機器を用い，現時点で男性アナウンサー1名分の収録を終えたところである．今後は引き続き収録を進めるとともに，音声合成システムの開発に取り組んでいきたい．
自由記述の分野	音声合成
研究成果の学術的意義や社会的意義	近年，深層学習等の発展により音声合成のクオリティが格段に向上している．しかし一般的な音声合成では人間の発音に関する詳細な特徴を用いていないため，人間ならではの発音の失敗や声質の変化に対応することが難しい．本研究で取り組む調音運動ベースの音声合成は人間の発声の仕組みに近い方式をとるため，こうした人間ならではの声の変化に対応できる可能性がある．こうした合成のモデルを他者の発話の認識等に用いることで，言語情報だけではなく，その背後の発声方式の変化（風邪をひいたとか，口の中が痛いとか）を認識する補助情報として利用することも考えられる．