研究課題/領域番号 |
17K20011
|
研究機関 | 佐賀大学 |
研究代表者 |
大島 千佳 佐賀大学, 理工学部, 客員研究員 (10395147)
|
研究分担者 |
中山 功一 佐賀大学, 理工学部, 准教授 (50418498)
|
研究期間 (年度) |
2017-06-30 – 2020-03-31
|
キーワード | EPROCs / 音声データ / 感情付与 / 音声変換 |
研究実績の概要 |
発話音声の音高や,音量などをリアルタイムに変換し,発話者本人にフィードバックする効果を調べる実験に向けて,本年度は発話者と聞き手で,気分や印象を決定づける発話要因が同一であるか確認した.まず,音声の韻律変化による自然な感情表現を実現するために機械学習を用いた感情認識プログラムを開発した.開発したプログラムを利用し,予め感情がラベル付けされた音声データや,音声変換システムで任意の感情を付与した音声に対し,正しく感情の認識が行われるか調べる実験を行った.実験では,本プロジェクトで開発した音声変換システム,EPROCs(Emotional PROsody Coversion system)と,IRCAMなどで開発された,音声に感情フィルタを付加できるシステム,DAVID(Da Amazing Voice Inflection Device)を使った.前者は音高と音量により音響の特徴を変化させることができ,後者は感情変換フィルタにより音質を変化させられる.これらの違いが,機械学習による感情の認識に与える影響について調べた. 予め感情ラベルが付与されている音声データ1376個を実験に使った.このうち960個の音声データをトレーニングデータとして用いて識別器を構築し,416個の音声データをテストデータとして分類することで実験・検証を行った.EPROCsでは,音声データの音量・音高のデータを特徴量として用いた.音質データの分類(DAVID)では,MFCC,メル周波数ケプストラム係数と呼ばれる特徴量を用いた. その結果,音質データでの分類はある一定以上の精度を得られたが,音量・音高による分類は全体的に精度が低かった.もともと怒りの感情を表した音声データは,音声変換により異なる感情の付与がしやすかった.逆に驚きを表した音声データは音声変換の影響を受けにくいことがわかった.
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
本研究の計画書を作成した時点では,人間を被験者とした実験を容易に開始できると予測していた.しかし,実際にはこの2年間で,下調べとなる実験の必要性がわかり,機械学習などを使った実験を行っている.
|
今後の研究の推進方策 |
自然な感情付与ができる可能性が示唆されており,今後は音声データの量を増やして,機械学習を続けていく.
|
次年度使用額が生じた理由 |
当初,人間の被験者による実験を計画しており,謝金などに使用する予定だった.しかし,本年度はコンピュータを使った機械学習による実験を行ったため,被験者への謝金は不要となり,来年度必要となった.そのため,次年度に予算を使用する.
|