研究課題/領域番号 |
22K12087
|
研究種目 |
基盤研究(C)
|
配分区分 | 基金 |
応募区分 | 一般 |
審査区分 |
小区分61010:知覚情報処理関連
|
研究機関 | 山形大学 |
研究代表者 |
小坂 哲夫 山形大学, 大学院理工学研究科, 教授 (50359569)
|
研究期間 (年度) |
2022-04-01 – 2025-03-31
|
研究課題ステータス |
交付 (2023年度)
|
配分額 *注記 |
4,030千円 (直接経費: 3,100千円、間接経費: 930千円)
2024年度: 910千円 (直接経費: 700千円、間接経費: 210千円)
2023年度: 1,040千円 (直接経費: 800千円、間接経費: 240千円)
2022年度: 2,080千円 (直接経費: 1,600千円、間接経費: 480千円)
|
キーワード | 音声感情認識 / 深層学習 / 言語特徴 / 音響特徴 / 自発対話音声 / 感情音声コーパス / 言語モデル適応 / 音声認識 / 転移学習 |
研究開始時の研究の概要 |
人間対人間の対話同様,人間対機械の対話においても,言語情報だけではなく感情などの非言語情報が大きな役割を果たす.本研究では音声による感情の推定に焦点を当てる.申請者はこれまでツイッターの内容読み上げを対象とした感情音声コーパスを用いて検討を行い,4感情クラスの認識において78.5%の結果を得た.しかし異なる感情データでは認識性能の低下が懸念される. 本研究では転移学習技術を応用し,特定のタスクだけでなく多様な感情音声に対して高精度な認識を実現する技術を確立することを目的とする.この目的が達成できれば応用範囲が飛躍的に拡大し,様々な分野への波及が期待できる.
|
研究実績の概要 |
本研究では音響特徴と言語特徴を併用した,高精度で汎化性の高い音声感情認識の実現を目指している.構築するシステムは音響特徴による感情認識部,言語特徴による感情認識部,両者の出力の併合部の3つの要素から構成されている.本年度は特に以下の検討を行った. [言語特徴による感情認識部の性能向上] これまでのシステムでは音響特徴による感情認識に比べ,言語特徴による感情認識の性能が低かった.前者は4感情認識で77.25%に対し後者は51.5%にとどまっていた.言語特徴による方法では深層学習モデルの一種であるBERTを用いているが,これまで書き言葉で事前学習されたモデルを使用していた.一方認識対象となる音声は話し言葉でありミスマッチが生じていることが予想された.そこで話し言葉に近いSNSのデータで事前学習されたBERT(SNS-BERT)を用いることにより,言語特徴による認識性能が76.75%と大幅に向上した. [オープンタスクによる評価] 日本語における感情音声コーパスの種類が少ないため,従来の研究ではクローズドタスクで評価されることが多かった.本研究では汎化性の高いシステムをめざしているため,オープンタスクでの評価も行った.利用したのはオンラインゲームチャットコーパスの自発対話音声で最新の大規模モデルを使用しても認識率が50%以下と極めて困難なタスクである.これに対し上記のSNS-BERTを利用することにより言語特徴による認識性能が大幅に向上することが示された.
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
本研究の目的はオープンタスクにおいて,言語的特徴と音響的特徴の2種類を併用し,音声感情認識の性能向上を図ることである.よって最終的には日本語感情コーパスJTESを学習データとして用い,オンラインゲームチャットコーパスOGVCを評価対象として用いることを目指す.これまでの検討で問題となっていたのは言語特徴を用いた感情認識の性能の低さである.これに対し話し言葉に近いSNSによる事前学習モデルを使用することにより,音響特徴による認識に近い性能が得られることを示した.またその手法はオープンタスクでも有効であることが示された.よって言語特徴による感情認識の目途がついたため,おおむね順調に進展していると判断した.
|
今後の研究の推進方策 |
最終年度を迎えるため,今後はオープンタスクでの認識性能の向上に注力する.これまでの研究で,日本語感情コーパスJTESで学習し,そのJTESで評価するクローズドタスクについては十分高い性能が得られることが示された.オープンタスクとしてはオンラインゲームチャットコーパス(OGVC)を使用する.このデータは実際のゲームチャットを利用しているため,SNS上のテキストの読み上げであるJTESに比較して,極めてくだけた発話となっており性質が異なる.このオープンタスクでも十分な性能が得られれば,本研究で目指している認識手法の汎化性能の向上が確認できたことになる. OGVCは演技音声と自発音声の2種類からなる.後者は前者に比べ感情表出の度合いが低く極めて困難なタスクであり,従来あまり検討されていない.今後は演技音声と自発音声の両者で評価し,JTESに比較して何が困難であるか明らかにする.性能が十分に得られない場合は,OGVCにおける音声認識の性能向上,コーパスの収録環境の差異の正規化,BERTのファインチューニングにおける学習データの増加などの手法を用いて性能の向上を目指す.
|