2015 年度実績報告書

超巨大データに基づくユニバーサル音声モデル構築のための技術的・社会的基盤の確立

研究課題

研究課題/領域番号	25280061
研究機関	名古屋工業大学
研究代表者	徳田恵一名古屋工業大学, 工学(系)研究科(研究院), 教授 (20217483)
研究分担者	李晃伸名古屋工業大学, 工学(系)研究科(研究院), 准教授 (80332766) 南角吉彦名古屋工業大学, 工学(系)研究科(研究院), 准教授 (80397497) 戸田智基名古屋大学, 情報基盤センター, 教授 (90403328) 山岸順一国立情報学研究所, 大学共同利用機関等の部局等, 准教授 (70709352)
研究期間 (年度)	2013-04-01 – 2016-03-31
キーワード	音声合成 / 超巨大データ / 音声モデル
研究実績の概要	人間の音声のあらゆる多種多様性を表現できる音声合成を実現するためには、その音声合成技術の向上とともに、非常に大量の音声データが必要である。本研究では、「超巨大データベースを用いたユニバーサル音声モデル構築のための技術的基盤の構築」と、「音声データを永続的に収集・蓄積・共有・維持し続ける社会的基盤の構築」の２つを目的とする。当該年度は、技術的基盤の構築として、オーディオブックなどの音声合成システム構築用に整理されていない大量の音声データから音声合成システムを構築する手法について検討した。音声合成システムの構築のためには、発話内容が正確に書き起こされたテキストが付与された音声データが適しているが、発話内容とテキストの不一致や言い間違いなどが多数含まれた音声データから音声合成システムを構築可能にすることで、より多くの音声データを音声合成システムの構築に利用することが可能となり、合成音声の品質を改善することができる。また、ディープニューラルネットワークを用いた音声合成や声質変換などの新規理論の検証を行うことで、合成音声の自然性、柔軟性の改善に取り組んだ。また、社会的基盤の構築として、前年度から引き続き音声収録ツールの開発を進めると同時に、３０人以上に対して実際に音声収録を行うことで、収集に必要な知見の集積と音声データの収集を行った。さらに、クリエイティブコモンズ等の代表的なライセンス形態と、提供された音声データを共有するために必要な要件を調査し、既存のライセンス形態をもとに様々な分野で共通して使用可能な統一的なライセンスの設計に取り組んだ。
現在までの達成度 (段落)	27年度が最終年度であるため、記入しない。
今後の研究の推進方策	27年度が最終年度であるため、記入しない。
次年度使用額が生じた理由	27年度が最終年度であるため、記入しない。
次年度使用額の使用計画	27年度が最終年度であるため、記入しない。

研究成果
(36件)

すべて 2016 2015 その他

すべて雑誌論文 (1件) (うち査読あり 1件) 学会発表 (29件) (うち国際学会 9件、招待講演 3件) 図書 (1件) 備考 (5件)

[雑誌論文] 統計モデルに基づいた歌声合成技術の最先端2015
- 著者名/発表者名
  大浦圭一郎
- 雑誌名
  
  電子情報通信学会誌
  
  巻: 98 ページ: 460-466
- 査読あり
[学会発表] Directly modeling voiced and unvoiced components in speech waveforms by neural networks2016
- 著者名/発表者名
  Keiichi Tokuda, and Heiga Zen
- 学会等名
  ICASSP 2016
- 発表場所
  China
- 年月日
  2016-03-20 – 2016-03-25
- 国際学会
[学会発表] Trajectory training considering global variance for speech synthesis based on neural networks2016
- 著者名/発表者名
  Kei Hashimoto, Keiichiro Oura, Yoshihiko Nankaku, and Keiichi Tokuda
- 学会等名
  ICASSP 2016
- 発表場所
  China
- 年月日
  2016-03-20 – 2016-03-25
- 国際学会
[学会発表] A deep auto-encoder based low-dimensional feature extraction from FFT spectral envelopes for statistical parametric speech synthesis2016
- 著者名/発表者名
  Shinji Takaki, Junichi Yamagishi
- 学会等名
  ICASSP 2016
- 発表場所
  China
- 年月日
  2016-03-20 – 2016-03-25
- 国際学会
[学会発表] 条件付確率場に基づく音声の基本周波数推定の検討2016
- 著者名/発表者名
  鈴木達也, 橋本佳, 大浦圭一郎, 南角吉彦, 徳田恵一
- 学会等名
  日本音響学会2016年春季研究発表会
- 発表場所
  神奈川
- 年月日
  2016-03-09 – 2016-03-11
[学会発表] クラウドソーシングによる音声収集のための収録ソフトウェアの設計2016
- 著者名/発表者名
  吉村建慶, 橋本佳, 大浦圭一郎, 南角吉彦, 徳田恵一
- 学会等名
  日本音響学会2016年春季研究発表会
- 発表場所
  神奈川
- 年月日
  2016-03-09 – 2016-03-11
[学会発表] 統計的パラメトリック音声合成のためのオーディオブックを用いた学習コーパス自動構築2016
- 著者名/発表者名
  沢田慶, 伊神和輝, 浅井千明, 佐藤雄介, 橋本佳, 大浦圭一郎, 南角吉彦, 徳田恵一
- 学会等名
  日本音響学会2016年春季研究発表会
- 発表場所
  神奈川
- 年月日
  2016-03-09 – 2016-03-11
[学会発表] Deep Neural Networkに基づく歌声合成の検討2016
- 著者名/発表者名
  西村方成, 橋本佳, 大浦圭一郎, 南角吉彦, 徳田恵一
- 学会等名
  日本音響学会2016年春季研究発表会
- 発表場所
  神奈川
- 年月日
  2016-03-09 – 2016-03-11
[学会発表] ニューラルネットワークに基づく声質変換における系列内変動を考慮したトラジェクトリ学習2016
- 著者名/発表者名
  保坂尚紀, 橋本佳, 大浦圭一郎, 南角吉彦, 徳田恵一
- 学会等名
  日本音響学会2016年春季研究発表会
- 発表場所
  神奈川
- 年月日
  2016-03-09 – 2016-03-11
[学会発表] Using continuous representation of various linguistic units for recurrent neural network based TTS synthesis2016
- 著者名/発表者名
  WANG XIN, 高木信二, 山岸順一
- 学会等名
  第110回音声言語情報処理研究会 (SIG-SLP)
- 発表場所
  富山
- 年月日
  2016-02-05 – 2016-02-06
[学会発表] 音声対話システムにおけるシステムからの話しかけと他者性認知の関連性の調査2015
- 著者名/発表者名
  村上拓也, 李晃伸, 西川由理, 小島良宏, 遠藤充
- 学会等名
  HAIシンポジウム2015
- 発表場所
  東京
- 年月日
  2015-12-05 – 2015-12-06
[学会発表] 音声対話システムにおける音環境への反応表出によるアフォーダンスの評価2015
- 著者名/発表者名
  夏目龍司, 李晃伸
- 学会等名
  HAIシンポジウム2015
- 発表場所
  東京
- 年月日
  2015-12-05 – 2015-12-06
[学会発表] 音声対話インタフェースにおけるマルチタスク性の適切な表出方法の検討2015
- 著者名/発表者名
  小中彩貴, 李晃伸
- 学会等名
  HAIシンポジウム2015
- 発表場所
  東京
- 年月日
  2015-12-05 – 2015-12-06
[学会発表] 統計的音声合成技術の現在・過去・未来2015
- 著者名/発表者名
  徳田恵一
- 学会等名
  第17回音声言語シンポジウム
- 発表場所
  愛知
- 年月日
  2015-12-02 – 2015-12-03
- 招待講演
[学会発表] 発音情報が未知の言語におけるテキスト音声合成システム構築法の評価2015
- 著者名/発表者名
  沢田慶, 橋本佳, 大浦圭一郎, 南角吉彦, 徳田恵一
- 学会等名
  第17回音声言語シンポジウム
- 発表場所
  愛知
- 年月日
  2015-12-02 – 2015-12-03
[学会発表] 統計的パラメトリック音声合成のためのFFTスペクトルからのDeep Auto-encoderに基づく低次元音響特徴量抽出2015
- 著者名/発表者名
  高木信二，山岸順一
- 学会等名
  第17回音声言語シンポジウム
- 発表場所
  愛知
- 年月日
  2015-12-02 – 2015-12-03
[学会発表] これからの歌声合成2015
- 著者名/発表者名
  徳田恵一
- 学会等名
  第109回音楽情報科学研究会
- 発表場所
  石川
- 年月日
  2015-11-07 – 2015-11-08
- 招待講演
[学会発表] Text-to-speech Synthesis as a Machine Learning Problem2015
- 著者名/発表者名
  Keiichi Tokuda
- 学会等名
  Recent Advances in Machine Learning and Applications
- 発表場所
  Japan
- 年月日
  2015-11-05 – 2015-11-05
- 国際学会 / 招待講演
[学会発表] ニューラルネットワークに基づく音声合成における系列内変動を考慮したトラジェクトリモデル学習2015
- 著者名/発表者名
  橋本佳, 大浦圭一郎, 南角吉彦, 徳田恵一
- 学会等名
  日本音響学会2015年秋季研究発表会
- 発表場所
  福島
- 年月日
  2015-09-16 – 2015-09-18
[学会発表] 音声の高帯域成分復元を考慮したメルケプストラム分析に基づくHMM音声合成の検討2015
- 著者名/発表者名
  中村和寛, 橋本佳, 大浦圭一郎, 南角吉彦, 徳田恵一
- 学会等名
  日本音響学会2015年秋季研究発表会
- 発表場所
  福島
- 年月日
  2015-09-16 – 2015-09-18
[学会発表] 発音情報が未知の言語におけるテキスト音声合成システム構築法の検討2015
- 著者名/発表者名
  沢田慶, 橋本佳, 大浦圭一郎, 南角吉彦, 徳田恵一
- 学会等名
  日本音響学会2015年秋季研究発表会
- 発表場所
  福島
- 年月日
  2015-09-16 – 2015-09-18
[学会発表] 複数の音響特徴量を用いた対数線形モデルに基づく話者認識の検討2015
- 著者名/発表者名
  橋本聖矢, 橋本佳, 大浦圭一郎, 南角吉彦, 徳田恵一
- 学会等名
  日本音響学会2015年秋季研究発表会
- 発表場所
  福島
- 年月日
  2015-09-16 – 2015-09-18
[学会発表] The NITECH HMM-based text-to-speech system for the Blizzard Challenge 20152015
- 著者名/発表者名
  Kei Sawada, Kei Hashimoto, Keiichiro Oura, and Keiichi Tokuda
- 学会等名
  Blizzard Challenge 2015
- 発表場所
  Germany
- 年月日
  2015-09-11 – 2015-09-11
- 国際学会
[学会発表] Simultaneous optimization of multiple tree structures for factor analyzed HMM-based speech synthesis2015
- 著者名/発表者名
  Takenori Yoshimura, Kei Hashimoto, Keiichiro Oura,Yoshihiko Nankaku, and Keiichi Tokuda
- 学会等名
  Interspeech 2015
- 発表場所
  Germany
- 年月日
  2015-09-06 – 2015-09-10
- 国際学会
[学会発表] Multiple Feed-forward Deep Neural Networks for Statistical Parametric Speech Synthesis2015
- 著者名/発表者名
  Shinji Takaki, SangJin Kim, Junichi Yamagishi, JongJin Kim
- 学会等名
  Interspeech 2015
- 発表場所
  Germany
- 年月日
  2015-09-06 – 2015-09-10
- 国際学会
[学会発表] 国際会議ICASSP2015参加報告2015
- 著者名/発表者名
  岡本拓磨，小川哲司，落合翼，柏木陽佑，亀岡弘和，木下慶介，郡山知樹，齋藤大輔，篠崎隆宏，高木信二，滝口哲也，太刀岡勇気，俵直弘，橋本佳，藤本雅清，松田繁樹，三村正人，吉岡拓也，渡部晋治
- 学会等名
  第107回音声言語情報処理研究会 (SIG-SLP)
- 発表場所
  長野
- 年月日
  2015-07-16 – 2015-07-17
[学会発表] 複数のFeed-Forward Deep Neural Networkを用いた統計的パラメトリック音声合成2015
- 著者名/発表者名
  高木信二, 山岸順一
- 学会等名
  第107回音声言語情報処理研究会 (SIG-SLP)
- 発表場所
  長野
- 年月日
  2015-07-16 – 2015-07-17
[学会発表] Automatic Wide-Range Pitch Extraction for Singing-Voice Based on Spectral Amplitude Autocorrelation2015
- 著者名/発表者名
  Fernando Villavicencio, Jordi Bonada, Junichi Yamagishi, Michael Pucher
- 学会等名
  第107回音声言語情報処理研究会 (SIG-SLP)
- 発表場所
  長野
- 年月日
  2015-07-16 – 2015-07-17
[学会発表] The effect neural networks in statistical parametric speech synthesis2015
- 著者名/発表者名
  Kei Hashimoto, Keiichiro Oura,Yoshihiko Nankaku, and Keiichi Tokuda
- 学会等名
  ICASSP 2015
- 発表場所
  Australia
- 年月日
  2015-04-19 – 2015-04-24
- 国際学会
[学会発表] Directly modeling speech waveforms by neural networks for statistical parametric speech synthesis2015
- 著者名/発表者名
  Keiichi Tokuda and Heiga Zen
- 学会等名
  ICASSP 2015
- 発表場所
  Australia
- 年月日
  2015-04-19 – 2015-04-24
- 国際学会
[図書] 音響キーワードブック2015
- 著者名/発表者名
  李晃伸, 大浦圭一郎（分担執筆）
- 総ページ数
  494
- 出版者
  コロナ社
[備考] 音声対話システム構築ツールキットMMDAgent
- URL
  http://www.mmdagent.jp/
[備考] HMM音声合成ツールキットHTS
- URL
  http://hts.sp.nitech.ac.jp/
[備考] 音声信号処理ツールキットSPTK
- URL
  http://sp-tk.sourceforge.net/
[備考] HMM音声合成エンジンhts_engine API
- URL
  http://hts-engine.sourceforge.net/
[備考] 日本語テキスト音声対話システムOpen JTalk
- URL
  http://open-jtalk.sourceforge.net/

2015 年度 実績報告書

超巨大データに基づくユニバーサル音声モデル構築のための技術的・社会的基盤の確立

研究代表者

徳田 恵一 名古屋工業大学, 工学(系)研究科(研究院), 教授 (20217483)

研究成果

[雑誌論文] 統計モデルに基づいた歌声合成技術の最先端2015

著者名/発表者名

雑誌名

[学会発表] Directly modeling voiced and unvoiced components in speech waveforms by neural networks2016

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] Trajectory training considering global variance for speech synthesis based on neural networks2016

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] A deep auto-encoder based low-dimensional feature extraction from FFT spectral envelopes for statistical parametric speech synthesis2016

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] 条件付確率場に基づく音声の基本周波数推定の検討2016

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] クラウドソーシングによる音声収集のための収録ソフトウェアの設計2016

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] 統計的パラメトリック音声合成のためのオーディオブックを用いた学習コーパス自動構築2016

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] Deep Neural Networkに基づく歌声合成の検討2016

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] ニューラルネットワークに基づく声質変換における系列内変動を考慮したトラジェクトリ学習2016

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] Using continuous representation of various linguistic units for recurrent neural network based TTS synthesis2016

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] 音声対話システムにおけるシステムからの話しかけと他者性認知の関連性の調査2015

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] 音声対話システムにおける音環境への反応表出による アフォーダンスの評価2015

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] 音声対話インタフェースにおける マルチタスク性の適切な表出方法の検討2015

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] 統計的音声合成技術の現在・過去・未来2015

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] 発音情報が未知の言語におけるテキスト音声合成システム構築法の評価2015

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] 統計的パラメトリック音声合成のためのFFTスペクトルからのDeep Auto-encoderに基づく低次元音響特徴量抽出2015

著者名/発表者名

2015 年度実績報告書

徳田恵一名古屋工業大学, 工学(系)研究科(研究院), 教授 (20217483)

[学会発表] 音声対話システムにおける音環境への反応表出によるアフォーダンスの評価2015

[学会発表] 音声対話インタフェースにおけるマルチタスク性の適切な表出方法の検討2015