2015 Fiscal Year Annual Research Report
超巨大データに基づくユニバーサル音声モデル構築のための技術的・社会的基盤の確立
Project/Area Number |
25280061
|
Research Institution | Nagoya Institute of Technology |
Principal Investigator |
徳田 恵一 名古屋工業大学, 工学(系)研究科(研究院), 教授 (20217483)
|
Co-Investigator(Kenkyū-buntansha) |
李 晃伸 名古屋工業大学, 工学(系)研究科(研究院), 准教授 (80332766)
南角 吉彦 名古屋工業大学, 工学(系)研究科(研究院), 准教授 (80397497)
戸田 智基 名古屋大学, 情報基盤センター, 教授 (90403328)
山岸 順一 国立情報学研究所, 大学共同利用機関等の部局等, 准教授 (70709352)
|
Project Period (FY) |
2013-04-01 – 2016-03-31
|
Keywords | 音声合成 / 超巨大データ / 音声モデル |
Outline of Annual Research Achievements |
人間の音声のあらゆる多種多様性を表現できる音声合成を実現するためには、その音声合成技術の向上とともに、非常に大量の音声データが必要である。本研究では、「超巨大データベースを用いたユニバーサル音声モデル構築のための技術的基盤の構築」と、「音声データを永続的に収集・蓄積・共有・維持し続ける社会的基盤の構築」の2つを目的とする。 当該年度は、技術的基盤の構築として、オーディオブックなどの音声合成システム構築用に整理されていない大量の音声データから音声合成システムを構築する手法について検討した。音声合成システムの構築のためには、発話内容が正確に書き起こされたテキストが付与された音声データが適しているが、発話内容とテキストの不一致や言い間違いなどが多数含まれた音声データから音声合成システムを構築可能にすることで、より多くの音声データを音声合成システムの構築に利用することが可能となり、合成音声の品質を改善することができる。また、ディープニューラルネットワークを用いた音声合成や声質変換などの新規理論の検証を行うことで、合成音声の自然性、柔軟性の改善に取り組んだ。 また、社会的基盤の構築として、前年度から引き続き音声収録ツールの開発を進めると同時に、30人以上に対して実際に音声収録を行うことで、収集に必要な知見の集積と音声データの収集を行った。さらに、クリエイティブコモンズ等の代表的なライセンス形態と、提供された音声データを共有するために必要な要件を調査し、既存のライセンス形態をもとに様々な分野で共通して使用可能な統一的なライセンスの設計に取り組んだ。
|
Research Progress Status |
27年度が最終年度であるため、記入しない。
|
Strategy for Future Research Activity |
27年度が最終年度であるため、記入しない。
|
Causes of Carryover |
27年度が最終年度であるため、記入しない。
|
Expenditure Plan for Carryover Budget |
27年度が最終年度であるため、記入しない。
|