2013 Fiscal Year Annual Research Report
超巨大データに基づくユニバーサル音声モデル構築のための技術的・社会的基盤の確立
Project/Area Number |
25280061
|
Research Category |
Grant-in-Aid for Scientific Research (B)
|
Research Institution | Nagoya Institute of Technology |
Principal Investigator |
徳田 恵一 名古屋工業大学, 工学(系)研究科(研究院), 教授 (20217483)
|
Co-Investigator(Kenkyū-buntansha) |
李 晃伸 名古屋工業大学, 工学(系)研究科(研究院), 准教授 (80332766)
南角 吉彦 名古屋工業大学, 工学(系)研究科(研究院), 准教授 (80397497)
戸田 智基 奈良先端科学技術大学院大学, 情報科学研究科, 准教授 (90403328)
山岸 順一 国立情報学研究所, 大学共同利用機関等の部局等, 准教授 (70709352)
|
Project Period (FY) |
2013-04-01 – 2016-03-31
|
Keywords | 音声合成 / 超巨大データ / 音声モデル |
Research Abstract |
人間の音声のあらゆる多種多様性を表現できる音声合成を実現するためには、その構築技術の向上とともに、非常に大量の音声データが必要である。本研究では、「超巨大データベースを用いたユニバーサル音声モデル構築のための技術的基盤の確立」と、「音声データを永続的に収集・蓄積・共有・維持し続ける社会的基盤の確立」の2つを目的とする。 当該年度は、まず、音声合成の新規理論の整備と予備実験を行った。これまでに我々が取り組んできた隠れマルコフモデルに基づく音声合成(HMM音声合成)方式の性能改善を目指し、新たな励振源モデルや、音声の変動要因を高精度にモデル化する手法の検討を行った。また、感情や発話スタイル、話者などの多様な声質を再現する音声合成のための基盤技術として因子分析に基づく固有声手法や、多言語や歌声も合成可能な手法の検討にも取り組んだ。さらに、これらの手法について予備実験を行い、その性能を評価した。今後は、これらの手法のより詳細な検証を通して、音声合成システムの改善に取り組んでいく。 また、音声データの収集・蓄積・共有・維持のための検討を行った。具体的には、音声合成システムが構築されている各分野の調査や音声データを提供するための適切なインセンティブの検討を行った。今後は様々な分野で共通して使うことが可能な、わかりやすいライセンス形態の設計に取り組んでいく。さらに、音声を効率よく収録するための音声収録ツールの試作を行った。試作した音声収録ツールを用いて実際の音声収録を行うことで多くの知見が得られた。得られた知見をもとに、今後更なる改良に取り組んでいく。
|
Current Status of Research Progress |
Current Status of Research Progress
1: Research has progressed more than it was originally planned.
Reason
人間の音声のあらゆる多種多様性を表現できるユニバーサルな音声モデルの実現を目指し、当該年度の研究計画としては、多種多様な言語、話者性、発話スタイル、感情表現を実現する枠組みの確立と、新たな社会基盤の確立に向けた適切なインセンティブの設計を予定していた。当該年度は、これらの研究課題に取り組むと同時に、翌年度以降の実施を計画していた、整理されていない膨大な音声データを自動処理する枠組みの確立にも取り組んだ。このことから、本研究課題は当初の計画以上に進展しているといえる。
|
Strategy for Future Research Activity |
今後は、当該年度に取り組んだ各研究課題を継続して進めていくとともに、多種多様な音声を表現可能なユニバーサルな音声モデルを構築するためのフレームワーク全体の検証を進めていく。特に、複数の言語を合成可能な音声合成手法の検討や、膨大な音声データから自動学習するためのアルゴリズムの検討に取り組んでいく。さらに、音声データを収集・蓄積・共有・維持するために、当該年度の調査結果や検討をもとに、様々な分野で共通につかえるわかりやすいライセンス形態の設計を行っていく。また、実際に音声収録を継続的に行っていくことで、発話者に負担をかけないような音声収録ツールの開発、改善にも並行して取り組んでいく。
|
Expenditure Plans for the Next FY Research Funding |
既存のサーバーに予定外の容量の余裕ができたため、当初計画していたサーバーを新規に購入せずにそちらを活用したことが理由である。 音声データ収集は当初の計画以上に進んでいるため、次年度に、当初計画していたサーバーよりも大規模なものを購入するために使用する。
|