研究課題/領域番号 |
19K12014
|
研究機関 | 山形大学 |
研究代表者 |
小坂 哲夫 山形大学, 大学院理工学研究科, 教授 (50359569)
|
研究期間 (年度) |
2019-04-01 – 2022-03-31
|
キーワード | 感情認識 / 音声認識 / ディープラーニング / 感情音声 / 音響モデル / 言語モデル |
研究実績の概要 |
深層学習の利用により,音声を対象とした感情推定の研究が進展している.特に音声に含まれる非言語情報を利用した感情推定の研究は大きく進展している.一方言語情報と非言語情報の融合についての検討はまだ不十分であり,本研究では深層学習を利用した両者の融合を目指す. 言語情報を利用するためには,まず感情音声認識の精度向上が必要となる.しかし平静音声の認識と異なり音響的にも言語的にも変動が多く,認識は困難なものとなる.この問題に対し我々は音響モデルおよび言語モデルの感情音声タスクへの適応により性能向上を目指した.その結果JTES(Japanese Twitter-based emotional speech)を対象とした認識実験で,音響モデル適応と言語モデル適応の両者を融合した方法が有効であることを示した. 次に音声による非言語情報を利用した感情推定の精度向上について検討した.この点については従来から発話全体の音響的特徴から様々な統計量を抽出し,それを利用して推定する方法が検討されてきた.一方,近年の深層学習の進展により統計量によらず音声の時系列特徴を直接利用することにより感情推定を行う方法も検討されている.前者は発話全体の感情の特徴を表し,後者は発話の一部で生じる局所的な感情表出を抽出していると考えられる.以上,異なる性質を持つ2つの特徴量を融合し感情認識する方法について提案した.推定実験により,両者の融合が有効であることが分かった. 以上,本年度は言語的特徴抽出のための感情音声認識の精度向上,および音声に含まれる非言語情報からの感情推定の精度向上の2点について検討し,いずれも有効であることが分かった.これは言語情報と非言語情報を融合して感情認識を行う目的にとって,いずれも重要な検討課題であり,今後の研究の進展に意義深い結果が得られたと考えられる.
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
本年度は言語情報と非言語情報を利用した感情推定の基礎となる技術について検討を行った.検討項目としては1)感情音声認識の精度向上,2)音声の非言語情報を用いた感情推定の精度向上の2点である. 1)については,音響モデル適応による精度向上,言語モデル適応による精度向上,さらには両者を融合した適応による精度向上の3項目について検討した.各項目はそれぞれ,国際会議発表,査読付き国際会議論文および国内学会,国内学会において報告した.検討結果から得られた知見は以下の通りである.まず深層学習を利用した音響モデル適応は,感情音声が持つ音響的特徴のバリエーションに対し有効であることが分かった.また言語モデル適応は,感情音声の発話が持つ口語的表現に対し有効であることが分かった.また口語的表現はバリエーションに富むため,適応データの量的拡大が特に有効であることが示された.実験では約2千5百万語からなるツイートデータを利用した.最後に音響・言語モデルの同時適応の有効性が示された. 2)については,発話全体から求めた音響的特徴の統計量と音響特徴の時系列の両者を併用する検討を行い2回の国内学会で報告を行った.4種類の感情を識別する実験の結果,統計量のみで69.25%,時系列特徴のみで73.75%,両者を併用することにより74.5%の識別率が得られることが分かった. 以上1),2)とも良好な結果が出ており,順調に進捗していると考えられる.特に1)について音響・言語モデルの同時適応により,適応前の単語誤り率36.11%に対し,適応後は17.77%と大幅に性能が向上することが示された.
|
今後の研究の推進方策 |
本年度は2年目であり,研究の中期に当たる.1年目では感情音声からの言語的特徴抽出のために,感情音声認識の精度向上を図ったが,本年度は音声認識結果をもとに感情推定の検討を行う.認識を行うためのモデルとしてDeep Neural Network(DNN)およびLSTM(Long short-term memory)の利用を考える.いずれも深層学習を利用したモデルとして様々な分野で利用されているが,特に後者は時系列特徴の時間的推移をモデル化するという点で,言語情報を扱うのに適したモデルとも考えられる.また音声認識における誤認識の影響も検討する必要がある.現時点では感情音声認識コーパスJTESに対する単語誤り率は17%程度である.この誤りがどの程度,感情の推定に影響するか調べるため,正解テキストを使った場合の結果と比較することにより検討を行う. また進捗の状況によるが,音声認識結果のテキストをベクトル化した特徴量および音響的特徴量を融合した特徴量ベクトルを生成し,これを,深層学習モデルをベースとした識別器に入力し,どの程度感情の推定ができるかの予備検討を行う.これは特徴量統合による言語的特徴と音響的特徴の融合による方法であり,言語的特徴がどの程度性能向上に寄与するのか確認を行う.
|