2020 Fiscal Year Annual Research Report

マルチエージェント深層学習による音声因子分解

Research Project

Project/Area Number	19H04133
Research Institution	Tokyo Institute of Technology
Principal Investigator	篠田浩一東京工業大学, 情報理工学院, 教授 (10343097)
Co-Investigator(Kenkyū-buntansha)	井上中順東京工業大学, 情報理工学院, 准教授 (10733397) 岩野公司東京都市大学, メディア情報学部, 教授 (90323823) 宇都有昭東京工業大学, 情報理工学院, 助教 (90345356)
Project Period (FY)	2019-04-01 – 2022-03-31
Keywords	深層学習 / 音声認識 / 話者認識 / 話者分離 / 感情認識
Outline of Annual Research Achievements	前年度に「(A)音韻性と雑音の分離」と「(B)音韻性と話者性の分離」について、ある程度の性能向上が達成されたため、今年度はこれらを活用して、「(D)音源分離」の応用に着手した。より具体的には、これまで開発してきた波形ベースの音声信号処理システムをベースに、複数の話者の音声を分離する音源分離のフレームワークをまず構築した。そして、「(A)音韻性と雑音の分離」の成果をもとに、音源から雑音を除去する仕組みをこのシステムに追加し、雑音の影響に対して頑健な音声分離システムを構築した。既存のデータベースに雑音を重畳したデータを構築し、それを用いて評価を行った。従来法に比べ有意に高い性能を得た。この成果は、信号処理関連の国際会議IEEE APSIPA 2021に採択され、発表した。さらに「(E)言語認識、感情認識」において、まず感情認識に着手した。ここでは、まず、「(B)音韻性と話者性の分離」の成果に基づき、音声から音韻性と話者性を分離する、disentanglement（もつれをほどく）のフレームワークを構築し、残された成分を入力として感情の認識を行うシステムを開発する。今年度は、既存のデータベースを用いたベースラインを構築した。disentanglementには、オートエンコーダー(自己符号化器）を利用した声質変換を用いる方法を採用し、実装を行った。最終年度に評価を行う予定である。評価には、感情認識の分野で広く用いられているIEMOCAPデータベースを用いる予定である。
Current Status of Research Progress	Current Status of Research Progress 3: Progress in research has been slightly delayed. Reason 新型コロナの影響で、研究協力者（博士課程学生）が離籍したため、担当した話者認識関連の進捗が遅れた。また、その分の謝金および計算機使用料を2021年度に繰り越し、研究を継続した。その結果、ほぼ2020年度の計画は達成できた。
Strategy for Future Research Activity	引き続き「(E)言語認識、感情認識」における「感情認識」に取り組む。すでに、基本方針は策定済みであり、今後、その実装・評価を行う予定である。また、最後の課題「(G) マルチマイクの音源分離」に着手し、その方式開発および性能評価を行う。

Research Products
(3 results)

All 2021 2020

All Presentation (3 results) (of which Invited: 1 results)

[Presentation] Noise-Tolerant Time-Domain Speech Separation with Noise Bases2021
- Author(s)
  Kohei Ozamoto, Kuniaki Uto, Koji Iwano, Koichi Shinoda
- Organizer
  Proc. 13th Asia Pacific Signal and Information Processing Association Annual Summit and Conference (APSIPA ASC)
[Presentation] eam Takoyaki submission for VoxCeleb Speaker Recognition Challenge 20202020
- Author(s)
  Keisuke Ishikawa, Kuniaki Uto, Koji Iwano, Koichi Shinoda
- Organizer
  The VoxSRC Workshop
[Presentation] Co-design of ML and HPC for video understanding2020
- Author(s)
  Koichi Shinoda
- Organizer
  1st International Workshop on Deep Video Understanding (DVU 2020）
- Invited

2020 Fiscal Year Annual Research Report

マルチエージェント深層学習による音声因子分解

Principal Investigator

篠田 浩一 東京工業大学, 情報理工学院, 教授 (10343097)

Current Status of Research Progress

Reason

Research Products

[Presentation] Noise-Tolerant Time-Domain Speech Separation with Noise Bases2021

Author(s)

Organizer

[Presentation] eam Takoyaki submission for VoxCeleb Speaker Recognition Challenge 20202020

Author(s)

Organizer

[Presentation] Co-design of ML and HPC for video understanding2020

Author(s)

Organizer

篠田浩一東京工業大学, 情報理工学院, 教授 (10343097)