• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2021 Fiscal Year Annual Research Report

マルチエージェント深層学習による音声因子分解

Research Project

Project/Area Number 19H04133
Research InstitutionTokyo Institute of Technology

Principal Investigator

篠田 浩一  東京工業大学, 情報理工学院, 教授 (10343097)

Co-Investigator(Kenkyū-buntansha) 井上 中順  東京工業大学, 情報理工学院, 准教授 (10733397)
岩野 公司  東京都市大学, メディア情報学部, 教授 (90323823)
宇都 有昭  東京工業大学, 情報理工学院, 助教 (90345356)
Project Period (FY) 2019-04-01 – 2022-03-31
Keywords深層学習 / 音声認識 / 話者認識 / 話者分離 / 感情認識
Outline of Annual Research Achievements

1年目に、「(A)音声と雑音の分離」において、波形を入力し、特徴量再構成損失を目的関数としたDenoising Auto Encoder (DAE)を構築した。また、「(C)データベース整備」を行った。2年目は、(A)で開発した手法を複数の話者の音声が重畳したデータから各話者の音声を分離する「(D)話者分離」に応用し、雑音の基底を用いることにより、耐雑音性の高い手法を構築した。「(B)音韻性と話者性の分離」では、1年目に英語音声を入力とした音声認識および話者認識のシステムを構築し、従来方法と認識性能が同等であることを確認し、2年目には調整器を用いる手法による分離システムの方式検討・実装を行った。さらに、「(E)言語認識・感情認識」のうち、感情認識の研究に着手した。これらを受け、最終年度である今年度は以下の研究を行った。まず「(B)音韻性と話者性の分離」の性能改善を行うとともに、オートエンコーダーを用いた声質変換による方式の開発・評価を行った。そして、この方式を感情認識の研究に適用して、我々の提案する因子分解を用いた手法が顕著な効果があることを確認した。この分野で標準的なIEMOCAPデータベースを用いた評価の結果、世界最高性能(発表当時)を達成し、IEEE ASRU2021に採択された。また、同じ手法を、人の性格を認識する性格認識に応用し、人間同士の会話を収録したUDIVAデータセットに対し、BigFiveの指標を用いて評価したところ、従来の画像を用いた手法に比べ、今回提案した音声を用いた手法のほうが性能が高いことを確認した。

Research Progress Status

令和3年度が最終年度であるため、記入しない。

Strategy for Future Research Activity

令和3年度が最終年度であるため、記入しない。

  • Research Products

    (4 results)

All 2023 2022 2021

All Journal Article (2 results) (of which Peer Reviewed: 2 results) Presentation (1 results) Book (1 results)

  • [Journal Article] Multimodal Emotion Recognition with High-Level Speech and Text Features2021

    • Author(s)
      Makiuchi Mariana Rodrigues、Uto Kuniaki、Shinoda Koichi
    • Journal Title

      2021Proc. IEEE Automatic Speech Recognition and Understanding Workshop (ASRU)

      Volume: 1 Pages: 350-357

    • DOI

      10.1109/ASRU51503.2021.9688036

    • Peer Reviewed
  • [Journal Article] Noise-Tolerant Time-Domain Speech Separation with Noise Bases2021

    • Author(s)
      Kohei Ozamoto, Kuniaki Uto, Koji Iwano, Koichi Shinoda
    • Journal Title

      Proc. 2021 Asia-Pacific Signal and Information Processing Association Annual Summit and Conference (APSIPA ASC)

      Volume: 1 Pages: 624-629

    • Peer Reviewed
  • [Presentation] Personality Recognition on Dyadic Interactions with Representation Learning2023

    • Author(s)
      Nathania Nah, Takafumi Koshinaka,Koichi Shinoda
    • Organizer
      電子情報通信学会SP IPSJ-SLP EA SIP 研究会
  • [Book] 音声(下)2022

    • Author(s)
      日本音響学会、岩野 公司、河原 達也、篠田 浩一、伊藤 彰則、増村 亮、小川 哲司、駒谷 和範
    • Total Pages
      208
    • Publisher
      コロナ社
    • ISBN
      978-4-339-01367-2

URL: 

Published: 2023-12-25  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi