2014 年度実施状況報告書

「しゃべって」つくる音声インタラクションシステム

研究課題

研究課題/領域番号	26540083
研究機関	名古屋工業大学
研究代表者	徳田恵一名古屋工業大学, 工学(系)研究科(研究院), 教授 (20217483)
研究分担者	李晃伸名古屋工業大学, 工学(系)研究科(研究院), 准教授 (80332766) 南角吉彦名古屋工業大学, 工学(系)研究科(研究院), 准教授 (80397497) 山本大介名古屋工業大学, 工学(系)研究科(研究院), 准教授 (00402470)
研究期間 (年度)	2014-04-01 – 2017-03-31
キーワード	音声合成 / 音声認識 / 音声対話 / 音声インタフェース
研究実績の概要	本研究の目的は、音声インタフェースのコンテンツ制作において、コンテンツ製作者が「しゃべる」ことにより、その音声情報を利用してコンテンツを制作できるインタフェースの構築法を確立することである。本研究目的を達成するための研究課題は、(1)音声からの様々な情報の獲得、(2)獲得情報のコンテンツへの反映、(3)実証実験及び有効性の検証、の3つの課題に分類することができる。当該年度は研究課題(1)を中心に進めていくと同時に、音声認識、音声合成、音声対話等の基盤技術の高度化にも取り組んだ。研究課題(1)については、声の大きさ、声の高さ、話速といった音声情報から、話者や感情、強調等の情報を獲得する方法について検討した。因子分析に基づく音声モデルを用いることによって、発話に含まれる様々な情報を低次元の特徴量に抽出することを実現した。このような特徴量を利用、調整することによって様々な声質を再現可能であるため、獲得情報をコンテンツへ再現することが可能となる。また、実際の発話から韻律情報を抽象化して抽出する方法についても検討を行った。これらの手法については、研究課題(2)である獲得情報のコンテンツへの反映についても検討を進めた。実験の結果から、コンテンツ製作者がコンテンツの出力である合成音声の声質を柔軟に変更可能であることを示し、当初の計画以上に課題を進めることができたといえる。今後は、音声からの情報の獲得方法の検討を進めるとともに、獲得情報を柔軟にコンテンツへ反映していくための枠組みについて検討を進める。
現在までの達成度 (区分)	現在までの達成度 (区分) 1: 当初の計画以上に進展している理由当該年度は研究課題(1)音声から様々な情報を獲得する、を中心として研究課題(2)獲得情報のコンテンツへの反映、について準備を進める計画であったが、研究課題(1)によって獲得した情報をコンテンツへと反映し、出力音声を調整する枠組みを実際に構築し、実験による評価にまで進めることができた。このため、当初の計画以上に進展しているといえる。
今後の研究の推進方策	今後は、当該年度に引き続き、研究課題(1)音声からの様々な情報の獲得、及び、研究課題(2)獲得情報のコンテンツへの反映を進める。特に、研究課題(2)については、より多様な表現を可能にするために音声合成技術の高度化に取り組むことで、より多くの情報をコンテンツへ反映する方法を検討していく。さらに、提案法全体の有効性を検証するための実証実験の準備を進める。
次年度使用額が生じた理由	当初、モデル学習用計算サーバを購入予定であったが、想定よりも納品に時間がかかったため、次年度処理としたことが理由である。
次年度使用額の使用計画	次年度に購入予定であったモデル学習用計算サーバを購入するために使用する。

研究成果
(17件)

すべて 2015 2014 その他

すべて雑誌論文 (2件) (うち査読あり 2件) 学会発表 (9件) (うち招待講演 2件) 図書 (1件) 備考 (5件)

[雑誌論文] Integration of spectral feature extraction and modeling for HMM-based speech synthesis2014
- 著者名/発表者名
  Kazuhiro Nakamura, Kei Hashimoto, Yoshihiko Nankaku, and Keiichi Tokuda
- 雑誌名
  
  IEICE Transactions on Information and Systems
  
  巻: E97-D ページ: 1438-1448
- DOI
  10.1587/transinf.E97.D.1438
- 査読あり
[雑誌論文] Spectral modeling with contextual additive structure for HMM-based speech synthesis2014
- 著者名/発表者名
  Shinji Takaki, Yoshihiko Nankaku and Keiichi Tokuda
- 雑誌名
  
  IEEE Journal of Selected Topics in Signal Processing
  
  巻: 8 ページ: 229-238
- DOI
  10.1109/JSTSP.2014.2305919
- 査読あり
[学会発表] The effect of neural networks in statistical parametric speech synthesis2015
- 著者名/発表者名
  Kei Hashimoto, Keiichiro Oura, Yoshihiko Nankaku, Keiichi Tokuda
- 学会等名
  2015 IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP 2015)
- 発表場所
  Brisbane, Australia
- 年月日
  2015-04-19 – 2015-04-24
[学会発表] 統計モデルに基づいた柔軟な音声合成　～人間のように喋る機械の実現を目指して～2014
- 著者名/発表者名
  徳田恵一
- 学会等名
  音声言語シンポジウム（IEEE Fellow記念講演）
- 発表場所
  東京
- 年月日
  2014-12-15 – 2014-12-15
- 招待講演
[学会発表] 統計モデルに基づいた音声合成－人間のように喋る機械の実現を目指して－2014
- 著者名/発表者名
  徳田恵一
- 学会等名
  IEEE Nagoya Section, IEEE Fellow受賞記念講演
- 発表場所
  愛知
- 年月日
  2014-12-13 – 2014-12-13
- 招待講演
[学会発表] Voice Interaction System with 3D-CG Virtual Agent for Stand-alone Smartphones2014
- 著者名/発表者名
  Daisuke Yamamoto, Keiichiro Oura, Ryota Nishimura, Takahiro Uchiya, Akinobu Lee, Ichi Takumi, Keiichi Tokuda
- 学会等名
  The 2nd International Conference on Human Agent Interaction (HAI 2014)
- 発表場所
  Tsukuba, Japan
- 年月日
  2014-10-28 – 2014-10-31
[学会発表] Overview of NITECH HMM-based text-to-speech system for Blizzard Challenge 20142014
- 著者名/発表者名
  Kei Sawada, Shinji Takaki, Kei Hashimoto, Keiichiro Oura, Keiichi Tokuda
- 学会等名
  Blizzard Challenge 2014 Workshop
- 発表場所
  Singapore
- 年月日
  2014-09-19 – 2014-09-19
[学会発表] A mel-cepstral analysis technique restoring high frequency components from low-sampling-rate speech2014
- 著者名/発表者名
  Kazuhiro Nakamura, Kei Hashimoto, Keiichiro Oura, Yoshihiko Nankaku, Keiichi Tokuda
- 学会等名
  Interspeech 2014
- 発表場所
  Singapore
- 年月日
  2014-09-14 – 2014-09-18
[学会発表] H/L型アクセント推定と音響モデリングを統合したHMM音声合成の検討2014
- 著者名/発表者名
  神谷翔大, 橋本佳, 大浦圭一郎, 南角吉彦, 徳田恵一
- 学会等名
  日本音響学会秋季研究発表会
- 発表場所
  北海道
- 年月日
  2014-09-03 – 2014-09-05
[学会発表] 因子分析に基づくHMM音声合成における基底クラスタリングの検討2014
- 著者名/発表者名
  吉村建慶, 橋本佳, 南角吉彦, 徳田恵一
- 学会等名
  日本音響学会秋季研究発表会
- 発表場所
  北海道
- 年月日
  2014-09-03 – 2014-09-05
[学会発表] ニューラルネットワークに基づく音声合成における生成モデルの利用の検討2014
- 著者名/発表者名
  橋本佳, 大浦圭一郎, 南角吉彦, 徳田恵一
- 学会等名
  日本音響学会秋季研究発表会
- 発表場所
  北海道
- 年月日
  2014-09-03 – 2014-09-05
[図書] おしゃべりなコンピュータ ―音声合成技術の現在と未来―2015
- 著者名/発表者名
  山岸順一, 徳田恵一, 戸田智基, みわよしこ
- 総ページ数
  210
- 出版者
  丸善ライブラリ
[備考] 音声対話システム構築ツールキットMMDAgent
- URL
  http://www.mmdagent.jp/
[備考] 音声信号処理ツールキットSPTK
- URL
  http://sp-tk.sourceforge.net/
[備考] HMM音声合成エンジンhts_engine API
- URL
  http://hts-engine.sourceforge.net/
[備考] 日本語テキスト音声合成システムOpen JTalk
- URL
  http://open-jtalk.sourceforge.net/
[備考] HMM音声合成ツールキット HTS
- URL
  http://hts.sp.nitech.ac.jp/

2014 年度 実施状況報告書

「しゃべって」つくる音声インタラクションシステム

研究代表者

徳田 恵一 名古屋工業大学, 工学(系)研究科(研究院), 教授 (20217483)

現在までの達成度 (区分)

理由

研究成果

[雑誌論文] Integration of spectral feature extraction and modeling for HMM-based speech synthesis2014

著者名/発表者名

雑誌名

DOI

[雑誌論文] Spectral modeling with contextual additive structure for HMM-based speech synthesis2014

著者名/発表者名

雑誌名

DOI

[学会発表] The effect of neural networks in statistical parametric speech synthesis2015

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] 統計モデルに基づいた柔軟な音声合成 ～人間のように喋る機械の実現を目指して～2014

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] 統計モデルに基づいた音声合成 －人間のように喋る機械の実現を目指して－2014

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] Voice Interaction System with 3D-CG Virtual Agent for Stand-alone Smartphones2014

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] Overview of NITECH HMM-based text-to-speech system for Blizzard Challenge 20142014

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] A mel-cepstral analysis technique restoring high frequency components from low-sampling-rate speech2014

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] H/L型アクセント推定と音響モデリングを統合したHMM音声合成の検討2014

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] 因子分析に基づくHMM音声合成における基底クラスタリングの検討2014

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] ニューラルネットワークに基づく音声合成における生成モデルの利用の検討2014

著者名/発表者名

学会等名

発表場所

年月日

[図書] おしゃべりなコンピュータ ―音声合成技術の現在と未来―2015

著者名/発表者名

総ページ数

出版者

[備考] 音声対話システム構築ツールキットMMDAgent

URL

[備考] 音声信号処理ツールキットSPTK

URL

[備考] HMM音声合成エンジンhts_engine API

URL

[備考] 日本語テキスト音声合成システムOpen JTalk

URL

[備考] HMM音声合成ツールキット HTS

URL

2014 年度実施状況報告書

徳田恵一名古屋工業大学, 工学(系)研究科(研究院), 教授 (20217483)

[学会発表] 統計モデルに基づいた柔軟な音声合成　～人間のように喋る機械の実現を目指して～2014

[学会発表] 統計モデルに基づいた音声合成－人間のように喋る機械の実現を目指して－2014