2019 Fiscal Year Annual Research Report

マルチエージェント深層学習による音声因子分解

Research Project

Project/Area Number	19H04133
Research Institution	Tokyo Institute of Technology
Principal Investigator	篠田浩一東京工業大学, 情報理工学院, 教授 (10343097)
Co-Investigator(Kenkyū-buntansha)	岩野公司東京都市大学, メディア情報学部, 教授 (90323823) 井上中順東京工業大学, 情報理工学院, 助教 (10733397) 宇都有昭東京工業大学, 情報理工学院, 助教 (90345356)
Project Period (FY)	2019-04-01 – 2022-03-31
Keywords	深層学習 / 音声認識 / 話者認識
Outline of Annual Research Achievements	音声に関する音声認識、音声合成、話者認識などの様々なタスクを担当するエージェントが互いに競争・協調・調整しながら個々のタスクを学習する、マルチエージェントによる深層学習基盤を構築する。個々のタスクに関わる音声因子の間の含有・排他・共有などの関係を用いて音声データを因子分解することにより、個々のタスクの性能を高める。マルチタスク学習に比べ、少量・非均一のデータでより高い性能を得ることを目標とする。初年度は、主にベースラインを構築した。「(A)音声と雑音の分離」に関しては、再構成損失を目的関数としてDenoising Auto Encoder (DAE)を学習することにより、雑音を重畳した音声から雑音を分離するシステムを構築した。従来はスペクトル特徴量を入力とする方法がもっぱら使われていたが、ここでは波形ベースでの特徴量を入力とする。「(B)音韻性と話者性の分離」に関しては、英語音声を対象とし、音声認識および話者認識のシステムを構築した。音声認識では600時間の学習データをもつTedlium3データベースを用いて時間遅れニューラルネットワーク(TDNN)と長・短期記憶(LSTM)を用いるシステムを構築した。話者認識では、7000人の計100万発話からなるVoxCeleb2データベースを用いて、ニューラルネットワークから得られた特徴量を入力として確率的線形判別分析(PLDA)を用いて判別を行うシステムを構築した。従来方法と認識性能が同等であることを確認した。また、「(C)データベース整備」では、上の(A),(B)で用いるデータベースを選定した。
Current Status of Research Progress	Current Status of Research Progress 2: Research has progressed on the whole more than it was originally planned. Reason 初期の計画のうち、話者の音声を双方向で変換する声質変換を行う深層ニューラルネットワークを構築する予定であったが、ベースライン構築に遅れが出たため、構築に至っていない。それ以外は計画通り進んでいる。
Strategy for Future Research Activity	来年度は以下の研究を行う。まず「(A)音声と雑音の分離」では性能がまだ音声認識性能が従来の他手法に及ばない。他の手法を実装してベンチマーキングを行い、その結果を解析して原因を探り、提案法の性能向上を目指す。「(B)音韻性と話者性の分離」については、提案手法の実装を行い、音韻性と話者性の分離性能を評価する。最初は「調整器を用いる方法」を開発し、時間が許せば、次に「声質変換を用いる方法」を開発する。データベースとして昨年度音声認識システムの構築に用いた、Tedlium3データベースを話者認識の学習・評価もできるように一部設計しなおして用いる。また、これらの成果がある程度出た段階で、「音源分離」、「言語認識」、「感情認識」などの別の応用へと展開する。

Research Products
(2 results)

All 2019

All Journal Article (1 results) (of which Peer Reviewed: 1 results, Open Access: 1 results) Presentation (1 results)

[Journal Article] A Modified Algorithm for Multiple Input Spectrogram Inversion2019
- Author(s)
  Wang Dongxiao、Kameoka Hirokazu、Shinoda Koichi
- Journal Title
  
  Proc. ISCA Interspeech2019
  
  Volume: 1 Pages: 4569-4573
- DOI
  10.21437/Interspeech.2019-3242
- Peer Reviewed / Open Access
[Presentation] Improving the robustness of multiple input spectrogram inversion2019
- Author(s)
  Dongxiao Wang, Hirokazu Kameoka, Koichi Shinoda
- Organizer
  日本音響学会2019年春季研究発表会

2019 Fiscal Year Annual Research Report

マルチエージェント深層学習による音声因子分解

Principal Investigator

篠田 浩一 東京工業大学, 情報理工学院, 教授 (10343097)

Current Status of Research Progress

Reason

Research Products

[Journal Article] A Modified Algorithm for Multiple Input Spectrogram Inversion2019

Author(s)

Journal Title

DOI

[Presentation] Improving the robustness of multiple input spectrogram inversion2019

Author(s)

Organizer

篠田浩一東京工業大学, 情報理工学院, 教授 (10343097)