2015 Fiscal Year Annual Research Report

超巨大データに基づくユニバーサル音声モデル構築のための技術的・社会的基盤の確立

Research Project

Project/Area Number	25280061
Research Institution	Nagoya Institute of Technology
Principal Investigator	徳田恵一名古屋工業大学, 工学(系)研究科(研究院), 教授 (20217483)
Co-Investigator(Kenkyū-buntansha)	李晃伸名古屋工業大学, 工学(系)研究科(研究院), 准教授 (80332766) 南角吉彦名古屋工業大学, 工学(系)研究科(研究院), 准教授 (80397497) 戸田智基名古屋大学, 情報基盤センター, 教授 (90403328) 山岸順一国立情報学研究所, 大学共同利用機関等の部局等, 准教授 (70709352)
Project Period (FY)	2013-04-01 – 2016-03-31
Keywords	音声合成 / 超巨大データ / 音声モデル
Outline of Annual Research Achievements	人間の音声のあらゆる多種多様性を表現できる音声合成を実現するためには、その音声合成技術の向上とともに、非常に大量の音声データが必要である。本研究では、「超巨大データベースを用いたユニバーサル音声モデル構築のための技術的基盤の構築」と、「音声データを永続的に収集・蓄積・共有・維持し続ける社会的基盤の構築」の２つを目的とする。当該年度は、技術的基盤の構築として、オーディオブックなどの音声合成システム構築用に整理されていない大量の音声データから音声合成システムを構築する手法について検討した。音声合成システムの構築のためには、発話内容が正確に書き起こされたテキストが付与された音声データが適しているが、発話内容とテキストの不一致や言い間違いなどが多数含まれた音声データから音声合成システムを構築可能にすることで、より多くの音声データを音声合成システムの構築に利用することが可能となり、合成音声の品質を改善することができる。また、ディープニューラルネットワークを用いた音声合成や声質変換などの新規理論の検証を行うことで、合成音声の自然性、柔軟性の改善に取り組んだ。また、社会的基盤の構築として、前年度から引き続き音声収録ツールの開発を進めると同時に、３０人以上に対して実際に音声収録を行うことで、収集に必要な知見の集積と音声データの収集を行った。さらに、クリエイティブコモンズ等の代表的なライセンス形態と、提供された音声データを共有するために必要な要件を調査し、既存のライセンス形態をもとに様々な分野で共通して使用可能な統一的なライセンスの設計に取り組んだ。
Research Progress Status	27年度が最終年度であるため、記入しない。
Strategy for Future Research Activity	27年度が最終年度であるため、記入しない。
Causes of Carryover	27年度が最終年度であるため、記入しない。
Expenditure Plan for Carryover Budget	27年度が最終年度であるため、記入しない。

Research Products
(36 results)

All 2016 2015 Other

All Journal Article (1 results) (of which Peer Reviewed: 1 results) Presentation (29 results) (of which Int'l Joint Research: 9 results, Invited: 3 results) Book (1 results) Remarks (5 results)

[Journal Article] 統計モデルに基づいた歌声合成技術の最先端2015
- Author(s)
  大浦圭一郎
- Journal Title
  
  電子情報通信学会誌
  
  Volume: 98 Pages: 460-466
- Peer Reviewed
[Presentation] Directly modeling voiced and unvoiced components in speech waveforms by neural networks2016
- Author(s)
  Keiichi Tokuda, and Heiga Zen
- Organizer
  ICASSP 2016
- Place of Presentation
  China
- Year and Date
  2016-03-20 – 2016-03-25
- Int'l Joint Research
[Presentation] Trajectory training considering global variance for speech synthesis based on neural networks2016
- Author(s)
  Kei Hashimoto, Keiichiro Oura, Yoshihiko Nankaku, and Keiichi Tokuda
- Organizer
  ICASSP 2016
- Place of Presentation
  China
- Year and Date
  2016-03-20 – 2016-03-25
- Int'l Joint Research
[Presentation] A deep auto-encoder based low-dimensional feature extraction from FFT spectral envelopes for statistical parametric speech synthesis2016
- Author(s)
  Shinji Takaki, Junichi Yamagishi
- Organizer
  ICASSP 2016
- Place of Presentation
  China
- Year and Date
  2016-03-20 – 2016-03-25
- Int'l Joint Research
[Presentation] 条件付確率場に基づく音声の基本周波数推定の検討2016
- Author(s)
  鈴木達也, 橋本佳, 大浦圭一郎, 南角吉彦, 徳田恵一
- Organizer
  日本音響学会2016年春季研究発表会
- Place of Presentation
  神奈川
- Year and Date
  2016-03-09 – 2016-03-11
[Presentation] クラウドソーシングによる音声収集のための収録ソフトウェアの設計2016
- Author(s)
  吉村建慶, 橋本佳, 大浦圭一郎, 南角吉彦, 徳田恵一
- Organizer
  日本音響学会2016年春季研究発表会
- Place of Presentation
  神奈川
- Year and Date
  2016-03-09 – 2016-03-11
[Presentation] 統計的パラメトリック音声合成のためのオーディオブックを用いた学習コーパス自動構築2016
- Author(s)
  沢田慶, 伊神和輝, 浅井千明, 佐藤雄介, 橋本佳, 大浦圭一郎, 南角吉彦, 徳田恵一
- Organizer
  日本音響学会2016年春季研究発表会
- Place of Presentation
  神奈川
- Year and Date
  2016-03-09 – 2016-03-11
[Presentation] Deep Neural Networkに基づく歌声合成の検討2016
- Author(s)
  西村方成, 橋本佳, 大浦圭一郎, 南角吉彦, 徳田恵一
- Organizer
  日本音響学会2016年春季研究発表会
- Place of Presentation
  神奈川
- Year and Date
  2016-03-09 – 2016-03-11
[Presentation] ニューラルネットワークに基づく声質変換における系列内変動を考慮したトラジェクトリ学習2016
- Author(s)
  保坂尚紀, 橋本佳, 大浦圭一郎, 南角吉彦, 徳田恵一
- Organizer
  日本音響学会2016年春季研究発表会
- Place of Presentation
  神奈川
- Year and Date
  2016-03-09 – 2016-03-11
[Presentation] Using continuous representation of various linguistic units for recurrent neural network based TTS synthesis2016
- Author(s)
  WANG XIN, 高木信二, 山岸順一
- Organizer
  第110回音声言語情報処理研究会 (SIG-SLP)
- Place of Presentation
  富山
- Year and Date
  2016-02-05 – 2016-02-06
[Presentation] 音声対話システムにおけるシステムからの話しかけと他者性認知の関連性の調査2015
- Author(s)
  村上拓也, 李晃伸, 西川由理, 小島良宏, 遠藤充
- Organizer
  HAIシンポジウム2015
- Place of Presentation
  東京
- Year and Date
  2015-12-05 – 2015-12-06
[Presentation] 音声対話システムにおける音環境への反応表出によるアフォーダンスの評価2015
- Author(s)
  夏目龍司, 李晃伸
- Organizer
  HAIシンポジウム2015
- Place of Presentation
  東京
- Year and Date
  2015-12-05 – 2015-12-06
[Presentation] 音声対話インタフェースにおけるマルチタスク性の適切な表出方法の検討2015
- Author(s)
  小中彩貴, 李晃伸
- Organizer
  HAIシンポジウム2015
- Place of Presentation
  東京
- Year and Date
  2015-12-05 – 2015-12-06
[Presentation] 統計的音声合成技術の現在・過去・未来2015
- Author(s)
  徳田恵一
- Organizer
  第17回音声言語シンポジウム
- Place of Presentation
  愛知
- Year and Date
  2015-12-02 – 2015-12-03
- Invited
[Presentation] 発音情報が未知の言語におけるテキスト音声合成システム構築法の評価2015
- Author(s)
  沢田慶, 橋本佳, 大浦圭一郎, 南角吉彦, 徳田恵一
- Organizer
  第17回音声言語シンポジウム
- Place of Presentation
  愛知
- Year and Date
  2015-12-02 – 2015-12-03
[Presentation] 統計的パラメトリック音声合成のためのFFTスペクトルからのDeep Auto-encoderに基づく低次元音響特徴量抽出2015
- Author(s)
  高木信二，山岸順一
- Organizer
  第17回音声言語シンポジウム
- Place of Presentation
  愛知
- Year and Date
  2015-12-02 – 2015-12-03
[Presentation] これからの歌声合成2015
- Author(s)
  徳田恵一
- Organizer
  第109回音楽情報科学研究会
- Place of Presentation
  石川
- Year and Date
  2015-11-07 – 2015-11-08
- Invited
[Presentation] Text-to-speech Synthesis as a Machine Learning Problem2015
- Author(s)
  Keiichi Tokuda
- Organizer
  Recent Advances in Machine Learning and Applications
- Place of Presentation
  Japan
- Year and Date
  2015-11-05 – 2015-11-05
- Int'l Joint Research / Invited
[Presentation] ニューラルネットワークに基づく音声合成における系列内変動を考慮したトラジェクトリモデル学習2015
- Author(s)
  橋本佳, 大浦圭一郎, 南角吉彦, 徳田恵一
- Organizer
  日本音響学会2015年秋季研究発表会
- Place of Presentation
  福島
- Year and Date
  2015-09-16 – 2015-09-18
[Presentation] 音声の高帯域成分復元を考慮したメルケプストラム分析に基づくHMM音声合成の検討2015
- Author(s)
  中村和寛, 橋本佳, 大浦圭一郎, 南角吉彦, 徳田恵一
- Organizer
  日本音響学会2015年秋季研究発表会
- Place of Presentation
  福島
- Year and Date
  2015-09-16 – 2015-09-18
[Presentation] 発音情報が未知の言語におけるテキスト音声合成システム構築法の検討2015
- Author(s)
  沢田慶, 橋本佳, 大浦圭一郎, 南角吉彦, 徳田恵一
- Organizer
  日本音響学会2015年秋季研究発表会
- Place of Presentation
  福島
- Year and Date
  2015-09-16 – 2015-09-18
[Presentation] 複数の音響特徴量を用いた対数線形モデルに基づく話者認識の検討2015
- Author(s)
  橋本聖矢, 橋本佳, 大浦圭一郎, 南角吉彦, 徳田恵一
- Organizer
  日本音響学会2015年秋季研究発表会
- Place of Presentation
  福島
- Year and Date
  2015-09-16 – 2015-09-18
[Presentation] The NITECH HMM-based text-to-speech system for the Blizzard Challenge 20152015
- Author(s)
  Kei Sawada, Kei Hashimoto, Keiichiro Oura, and Keiichi Tokuda
- Organizer
  Blizzard Challenge 2015
- Place of Presentation
  Germany
- Year and Date
  2015-09-11 – 2015-09-11
- Int'l Joint Research
[Presentation] Simultaneous optimization of multiple tree structures for factor analyzed HMM-based speech synthesis2015
- Author(s)
  Takenori Yoshimura, Kei Hashimoto, Keiichiro Oura,Yoshihiko Nankaku, and Keiichi Tokuda
- Organizer
  Interspeech 2015
- Place of Presentation
  Germany
- Year and Date
  2015-09-06 – 2015-09-10
- Int'l Joint Research
[Presentation] Multiple Feed-forward Deep Neural Networks for Statistical Parametric Speech Synthesis2015
- Author(s)
  Shinji Takaki, SangJin Kim, Junichi Yamagishi, JongJin Kim
- Organizer
  Interspeech 2015
- Place of Presentation
  Germany
- Year and Date
  2015-09-06 – 2015-09-10
- Int'l Joint Research
[Presentation] 国際会議ICASSP2015参加報告2015
- Author(s)
  岡本拓磨，小川哲司，落合翼，柏木陽佑，亀岡弘和，木下慶介，郡山知樹，齋藤大輔，篠崎隆宏，高木信二，滝口哲也，太刀岡勇気，俵直弘，橋本佳，藤本雅清，松田繁樹，三村正人，吉岡拓也，渡部晋治
- Organizer
  第107回音声言語情報処理研究会 (SIG-SLP)
- Place of Presentation
  長野
- Year and Date
  2015-07-16 – 2015-07-17
[Presentation] 複数のFeed-Forward Deep Neural Networkを用いた統計的パラメトリック音声合成2015
- Author(s)
  高木信二, 山岸順一
- Organizer
  第107回音声言語情報処理研究会 (SIG-SLP)
- Place of Presentation
  長野
- Year and Date
  2015-07-16 – 2015-07-17
[Presentation] Automatic Wide-Range Pitch Extraction for Singing-Voice Based on Spectral Amplitude Autocorrelation2015
- Author(s)
  Fernando Villavicencio, Jordi Bonada, Junichi Yamagishi, Michael Pucher
- Organizer
  第107回音声言語情報処理研究会 (SIG-SLP)
- Place of Presentation
  長野
- Year and Date
  2015-07-16 – 2015-07-17
[Presentation] The effect neural networks in statistical parametric speech synthesis2015
- Author(s)
  Kei Hashimoto, Keiichiro Oura,Yoshihiko Nankaku, and Keiichi Tokuda
- Organizer
  ICASSP 2015
- Place of Presentation
  Australia
- Year and Date
  2015-04-19 – 2015-04-24
- Int'l Joint Research
[Presentation] Directly modeling speech waveforms by neural networks for statistical parametric speech synthesis2015
- Author(s)
  Keiichi Tokuda and Heiga Zen
- Organizer
  ICASSP 2015
- Place of Presentation
  Australia
- Year and Date
  2015-04-19 – 2015-04-24
- Int'l Joint Research
[Book] 音響キーワードブック2015
- Author(s)
  李晃伸, 大浦圭一郎（分担執筆）
- Total Pages
  494
- Publisher
  コロナ社
[Remarks] 音声対話システム構築ツールキットMMDAgent
- URL
  http://www.mmdagent.jp/
[Remarks] HMM音声合成ツールキットHTS
- URL
  http://hts.sp.nitech.ac.jp/
[Remarks] 音声信号処理ツールキットSPTK
- URL
  http://sp-tk.sourceforge.net/
[Remarks] HMM音声合成エンジンhts_engine API
- URL
  http://hts-engine.sourceforge.net/
[Remarks] 日本語テキスト音声対話システムOpen JTalk
- URL
  http://open-jtalk.sourceforge.net/

2015 Fiscal Year Annual Research Report

超巨大データに基づくユニバーサル音声モデル構築のための技術的・社会的基盤の確立

Principal Investigator

徳田 恵一 名古屋工業大学, 工学(系)研究科(研究院), 教授 (20217483)

Research Products

[Journal Article] 統計モデルに基づいた歌声合成技術の最先端2015

Author(s)

Journal Title

[Presentation] Directly modeling voiced and unvoiced components in speech waveforms by neural networks2016

Author(s)

Organizer

Place of Presentation

Year and Date

[Presentation] Trajectory training considering global variance for speech synthesis based on neural networks2016

Author(s)

Organizer

Place of Presentation

Year and Date

[Presentation] A deep auto-encoder based low-dimensional feature extraction from FFT spectral envelopes for statistical parametric speech synthesis2016

Author(s)

Organizer

Place of Presentation

Year and Date

[Presentation] 条件付確率場に基づく音声の基本周波数推定の検討2016

Author(s)

Organizer

Place of Presentation

Year and Date

[Presentation] クラウドソーシングによる音声収集のための収録ソフトウェアの設計2016

Author(s)

Organizer

Place of Presentation

Year and Date

[Presentation] 統計的パラメトリック音声合成のためのオーディオブックを用いた学習コーパス自動構築2016

Author(s)

Organizer

Place of Presentation

Year and Date

[Presentation] Deep Neural Networkに基づく歌声合成の検討2016

Author(s)

Organizer

Place of Presentation

Year and Date

[Presentation] ニューラルネットワークに基づく声質変換における系列内変動を考慮したトラジェクトリ学習2016

Author(s)

Organizer

Place of Presentation

Year and Date

[Presentation] Using continuous representation of various linguistic units for recurrent neural network based TTS synthesis2016

Author(s)

Organizer

Place of Presentation

Year and Date

[Presentation] 音声対話システムにおけるシステムからの話しかけと他者性認知の関連性の調査2015

Author(s)

Organizer

Place of Presentation

Year and Date

[Presentation] 音声対話システムにおける音環境への反応表出による アフォーダンスの評価2015

Author(s)

Organizer

Place of Presentation

Year and Date

[Presentation] 音声対話インタフェースにおける マルチタスク性の適切な表出方法の検討2015

Author(s)

Organizer

Place of Presentation

Year and Date

[Presentation] 統計的音声合成技術の現在・過去・未来2015

Author(s)

Organizer

Place of Presentation

Year and Date

[Presentation] 発音情報が未知の言語におけるテキスト音声合成システム構築法の評価2015

Author(s)

Organizer

Place of Presentation

Year and Date

[Presentation] 統計的パラメトリック音声合成のためのFFTスペクトルからのDeep Auto-encoderに基づく低次元音響特徴量抽出2015

Author(s)

徳田恵一名古屋工業大学, 工学(系)研究科(研究院), 教授 (20217483)

[Presentation] 音声対話システムにおける音環境への反応表出によるアフォーダンスの評価2015

[Presentation] 音声対話インタフェースにおけるマルチタスク性の適切な表出方法の検討2015