2016 Fiscal Year Annual Research Report
状態推定に基づく多様な音声の認識・合成による「人にやさしい」対話システムの研究
Project/Area Number |
15H02720
|
Research Institution | Tohoku University |
Principal Investigator |
能勢 隆 東北大学, 工学研究科, 准教授 (90550591)
|
Co-Investigator(Kenkyū-buntansha) |
伊藤 彰則 東北大学, 工学研究科, 教授 (70232428)
|
Project Period (FY) |
2015-04-01 – 2018-03-31
|
Keywords | 音声対話システム / 感情音声コーパス / 感情認識 / 感情音声認識 / 感情音声合成 / DNN音声合成 / 雑談対話 / DNN音声認識 |
Outline of Annual Research Achievements |
本年度は以下の7項目について研究成果が得られた。1. 提案する「人にやさしい」対話システムにおいて任意の話者の感情音声やそれに含まれる感情を高い精度で認識するため、また感情豊かな音声を合成するために、前年度に引き続き感情音声データベースの構築を行い男女各50名、計100名について4感情(平常、喜び、怒り、悲しみ)の各50文、計20,000発話の収録を完了し、これをJTES(Japanese Twitter-based Emotional Speech)と名付けた。またこれらのデータの一部を用いて感情認識および感情音声合成においてデータベースの評価を行い、話者を増やすことで性能が向上することを確認した。2. 今後さらにデータベースを拡充するため、クラウドソーシングによる音声収集のための Webブラウザによる収録環境を構築に取り組んだ。3. 音声合成部についてはスペクトル特徴量のベクトル量子化に基づくDNN音声合成手法を提案し、主観品質が改善することを示した。4. 聞き手にやさしい音声合成のために、話し言葉音声合成のためのWeb上のテキストデータを用いた音韻・韻律バランスコーパスの設計についても検討した。5. 自然なアクセントによる音声合成を行うため、日本語テキスト音声合成のためのアクセント辞典に基づくアクセント結合規則の改良を行った。6. 音声対話システムによる雑談対話用例文の収集と人手DBとの比較を行い、有効性を示した。7. 話し言葉音声を高い精度で認識するため、深層学習に基づく音声認識ツールキットKaldiを、幅広く利用されている音声認識エンジンJulius互換にするためのインタフェースを開発した。
|
Current Status of Research Progress |
Current Status of Research Progress
1: Research has progressed more than it was originally planned.
Reason
感情音声の収録については、新たな防音室の購入することで他の実験の影響を受けずスムーズに収録を進めることができた。それ以外の研究・実験についても研究協力者と並行して進めることができたため、予定していたより多くの成果が得られた。
|
Strategy for Future Research Activity |
今後は構築した感情音声コーパス全体を利用し、感情認識、感情音声の認識、感情音声合成においてより厳密な評価を行うとともに、感情認識エンジン、感情音声認識エンジン、感情音声合成エンジンをそれぞれ作成し、対話システムに組み込む。また、利用者の入力に対して「人にやさしい」応答を生成するため、これらの技術を組み合わせ、また発話の表現についても親しみやすさの指標を導入することで、最終的なシステムを構築し、システム全体の評価を被験者実験により行う。
|
Research Products
(18 results)