研究課題/領域番号 |
25280061
|
研究機関 | 名古屋工業大学 |
研究代表者 |
徳田 恵一 名古屋工業大学, 工学(系)研究科(研究院), 教授 (20217483)
|
研究分担者 |
李 晃伸 名古屋工業大学, 工学(系)研究科(研究院), 准教授 (80332766)
南角 吉彦 名古屋工業大学, 工学(系)研究科(研究院), 准教授 (80397497)
戸田 智基 奈良先端科学技術大学院大学, 情報科学研究科, 准教授 (90403328)
山岸 順一 国立情報学研究所, 大学共同利用機関等の部局等, 准教授 (70709352)
|
研究期間 (年度) |
2013-04-01 – 2016-03-31
|
キーワード | 音声合成 / 超巨大データ / 音声モデル |
研究実績の概要 |
人間の音声のあらゆる多種多様性を表現できる音声合成を実現するためには、その構築技術の向上とともに、非常に大量の音声データが必要である。本研究では、「超巨大データベースを用いたユニバーサル音声モデル構築のための技術的基盤の構築」と、「音声データを永続的に収集・蓄積・共有・維持し続ける社会的基盤の構築」の2つを目的とする。 当該年度は、技術的基盤の構築として、統計的励振源モデルの改善による合成音声の自然性の改善、書き文字と音声データのみから音声合成システムを構築する枠組みの開発による多言語音声合成手法の実現、オーディオブックなどの多様性を含む音声データを用いて様々な声質を同時にモデル化する手法の開発による多様性の向上に取り組んだ。さらに、ニューラルネットワークを用いた音声合成手法などの新規理論の検証を行い、さらなる合成音声の品質改善に取り組んできた。これらを通して、合成音声の品質を改善することができたが、さらなる改善が求められている。特に、合成音声の多様性の改善は重要であり、今後もオーディオブックなどの大量の音声データを利用した多様な声質を再現可能な音声合成手法の開発に取り組んでいく。 また、社会的基盤の構築として、前年度から引き続き音声収録ツールの開発を進めるとともに、50人以上に対して実際に音声収録を行うことによって、収集に必要な知見の集積と音声データの収集を行ってきた。さらに、収集した音声データに対するライセンス形態を産学官連携センターと協力して設計しており、音声データを共有するための枠組みの検討を進めた。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
1: 当初の計画以上に進展している
理由
当該年度の研究計画としては、人間の音声のあらゆる多種多様性を表現できるユニバーサルな音声モデルの実現を目指し、様々な話者や感情を表すことが可能な音声合成方式を開発することであった。当該年度はこのような話者や感情などの多様性について取り組むと同時に、書き文字と音声データから音声合成システムを構築可能な枠組みを開発することによって、あらゆる言語の音声合成システムを構築することを可能とした。また、当該年度の研究計画としては、音声収録ツールの開発を行う予定であったが、当初の予定よりも多い人数の音声を収録することによって、音声収録ツールの開発が大きく進んだ。このことから、本研究課題は当初の計画以上に進展しているといえる。
|
今後の研究の推進方策 |
今後は、当該年度までに取り組んできた各研究課題をまとめていき、オーディオブックなどの大量の音声データから多種多様な音声を表現可能なユニバーサルな音声モデルを構築するための枠組みを検証する。複数の理論や手法を統合することで、これまで以上に柔軟に声質を変換することが可能な手法を目指す。 また、音声収録を継続的に行うことで、音声収録に必要な要件をまとめていき、発話者に負担をかけないような音声収録ツールを開発するとともに、収録した音声を共有することが可能になるようなライセンス形態をまとめていく。
|
次年度使用額が生じた理由 |
既存のファイルサーバーやハードディスクに容量の余裕ができたため、当初計画していたサーバーを新規購入せずにそちらを活用したことが理由である。
|
次年度使用額の使用計画 |
音声データの収集は当初の計画以上に進んでいるため、次年度に追加のサーバーまたはハードディスクを購入するために使用する。
|