2021 Fiscal Year Annual Research Report

マルチエージェント深層学習による音声因子分解

Research Project

Project/Area Number	19H04133
Research Institution	Tokyo Institute of Technology
Principal Investigator	篠田浩一東京工業大学, 情報理工学院, 教授 (10343097)
Co-Investigator(Kenkyū-buntansha)	井上中順東京工業大学, 情報理工学院, 准教授 (10733397) 岩野公司東京都市大学, メディア情報学部, 教授 (90323823) 宇都有昭東京工業大学, 情報理工学院, 助教 (90345356)
Project Period (FY)	2019-04-01 – 2022-03-31
Keywords	深層学習 / 音声認識 / 話者認識 / 話者分離 / 感情認識
Outline of Annual Research Achievements	1年目に、「(A)音声と雑音の分離」において、波形を入力し、特徴量再構成損失を目的関数としたDenoising Auto Encoder (DAE)を構築した。また、「(C)データベース整備」を行った。2年目は、(A)で開発した手法を複数の話者の音声が重畳したデータから各話者の音声を分離する「(D)話者分離」に応用し、雑音の基底を用いることにより、耐雑音性の高い手法を構築した。「(B)音韻性と話者性の分離」では、1年目に英語音声を入力とした音声認識および話者認識のシステムを構築し、従来方法と認識性能が同等であることを確認し、2年目には調整器を用いる手法による分離システムの方式検討・実装を行った。さらに、「(E)言語認識・感情認識」のうち、感情認識の研究に着手した。これらを受け、最終年度である今年度は以下の研究を行った。まず「(B)音韻性と話者性の分離」の性能改善を行うとともに、オートエンコーダーを用いた声質変換による方式の開発・評価を行った。そして、この方式を感情認識の研究に適用して、我々の提案する因子分解を用いた手法が顕著な効果があることを確認した。この分野で標準的なIEMOCAPデータベースを用いた評価の結果、世界最高性能(発表当時)を達成し、IEEE ASRU2021に採択された。また、同じ手法を、人の性格を認識する性格認識に応用し、人間同士の会話を収録したUDIVAデータセットに対し、BigFiveの指標を用いて評価したところ、従来の画像を用いた手法に比べ、今回提案した音声を用いた手法のほうが性能が高いことを確認した。
Research Progress Status	令和3年度が最終年度であるため、記入しない。
Strategy for Future Research Activity	令和3年度が最終年度であるため、記入しない。

Research Products
(4 results)

All 2023 2022 2021

All Journal Article (2 results) (of which Peer Reviewed: 2 results) Presentation (1 results) Book (1 results)

[Journal Article] Multimodal Emotion Recognition with High-Level Speech and Text Features2021
- Author(s)
  Makiuchi Mariana Rodrigues、Uto Kuniaki、Shinoda Koichi
- Journal Title
  
  2021Proc. IEEE Automatic Speech Recognition and Understanding Workshop (ASRU)
  
  Volume: 1 Pages: 350-357
- DOI
  10.1109/ASRU51503.2021.9688036
- Peer Reviewed
[Journal Article] Noise-Tolerant Time-Domain Speech Separation with Noise Bases2021
- Author(s)
  Kohei Ozamoto, Kuniaki Uto, Koji Iwano, Koichi Shinoda
- Journal Title
  
  Proc. 2021 Asia-Pacific Signal and Information Processing Association Annual Summit and Conference (APSIPA ASC)
  
  Volume: 1 Pages: 624-629
- Peer Reviewed
[Presentation] Personality Recognition on Dyadic Interactions with Representation Learning2023
- Author(s)
  Nathania Nah, Takafumi Koshinaka,Koichi Shinoda
- Organizer
  電子情報通信学会SP IPSJ-SLP EA SIP 研究会
[Book] 音声（下）2022
- Author(s)
  日本音響学会、岩野公司、河原達也、篠田浩一、伊藤彰則、増村亮、小川哲司、駒谷和範
- Total Pages
  208
- Publisher
  コロナ社
- ISBN
  978-4-339-01367-2

2021 Fiscal Year Annual Research Report

マルチエージェント深層学習による音声因子分解

Principal Investigator

篠田 浩一 東京工業大学, 情報理工学院, 教授 (10343097)

Research Products

[Journal Article] Multimodal Emotion Recognition with High-Level Speech and Text Features2021

Author(s)

Journal Title

DOI

[Journal Article] Noise-Tolerant Time-Domain Speech Separation with Noise Bases2021

Author(s)

Journal Title

[Presentation] Personality Recognition on Dyadic Interactions with Representation Learning2023

Author(s)

Organizer

[Book] 音声（下）2022

Author(s)

Total Pages

Publisher

ISBN

篠田浩一東京工業大学, 情報理工学院, 教授 (10343097)