• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2020 Fiscal Year Annual Research Report

マルチエージェント深層学習による音声因子分解

Research Project

Project/Area Number 19H04133
Research InstitutionTokyo Institute of Technology

Principal Investigator

篠田 浩一  東京工業大学, 情報理工学院, 教授 (10343097)

Co-Investigator(Kenkyū-buntansha) 井上 中順  東京工業大学, 情報理工学院, 准教授 (10733397)
岩野 公司  東京都市大学, メディア情報学部, 教授 (90323823)
宇都 有昭  東京工業大学, 情報理工学院, 助教 (90345356)
Project Period (FY) 2019-04-01 – 2022-03-31
Keywords深層学習 / 音声認識 / 話者認識 / 話者分離 / 感情認識
Outline of Annual Research Achievements

前年度に「(A)音韻性と雑音の分離」と「(B)音韻性と話者性の分離」について、ある程度の性能向上が達成されたため、今年度はこれらを活用して、「(D)音源分離」の応用に着手した。より具体的には、これまで開発してきた波形ベースの音声信号処理システムをベースに、複数の話者の音声を分離する音源分離のフレームワークをまず構築した。そして、「(A)音韻性と雑音の分離」の成果をもとに、音源から雑音を除去する仕組みをこのシステムに追加し、雑音の影響に対して頑健な音声分離システムを構築した。既存のデータベースに雑音を重畳したデータを構築し、それを用いて評価を行った。従来法に比べ有意に高い性能を得た。この成果は、信号処理関連の国際会議IEEE APSIPA 2021に採択され、発表した。さらに「(E)言語認識、感情認識」において、まず感情認識に着手した。ここでは、まず、「(B)音韻性と話者性の分離」の成果に基づき、音声から音韻性と話者性を分離する、disentanglement(もつれをほどく)のフレームワークを構築し、残された成分を入力として感情の認識を行うシステムを開発する。今年度は、既存のデータベースを用いたベースラインを構築した。disentanglementには、オートエンコーダー(自己符号化器)を利用した声質変換を用いる方法を採用し、実装を行った。最終年度に評価を行う予定である。評価には、感情認識の分野で広く用いられているIEMOCAPデータベースを用いる予定である。

Current Status of Research Progress
Current Status of Research Progress

3: Progress in research has been slightly delayed.

Reason

新型コロナの影響で、研究協力者(博士課程学生)が離籍したため、担当した話者認識関連の進捗が遅れた。また、その分の謝金および計算機使用料を2021年度に繰り越し、研究を継続した。その結果、ほぼ2020年度の計画は達成できた。

Strategy for Future Research Activity

引き続き「(E)言語認識、感情認識」における「感情認識」に取り組む。すでに、基本方針は策定済みであり、今後、その実装・評価を行う予定である。また、最後の課題「(G) マルチマイクの音源分離」に着手し、その方式開発および性能評価を行う。

  • Research Products

    (3 results)

All 2021 2020

All Presentation (3 results) (of which Invited: 1 results)

  • [Presentation] Noise-Tolerant Time-Domain Speech Separation with Noise Bases2021

    • Author(s)
      Kohei Ozamoto, Kuniaki Uto, Koji Iwano, Koichi Shinoda
    • Organizer
      Proc. 13th Asia Pacific Signal and Information Processing Association Annual Summit and Conference (APSIPA ASC)
  • [Presentation] eam Takoyaki submission for VoxCeleb Speaker Recognition Challenge 20202020

    • Author(s)
      Keisuke Ishikawa, Kuniaki Uto, Koji Iwano, Koichi Shinoda
    • Organizer
      The VoxSRC Workshop
  • [Presentation] Co-design of ML and HPC for video understanding2020

    • Author(s)
      Koichi Shinoda
    • Organizer
      1st International Workshop on Deep Video Understanding (DVU 2020)
    • Invited

URL: 

Published: 2022-12-28  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi