2019 Fiscal Year Annual Research Report
Project/Area Number |
19H04133
|
Research Institution | Tokyo Institute of Technology |
Principal Investigator |
篠田 浩一 東京工業大学, 情報理工学院, 教授 (10343097)
|
Co-Investigator(Kenkyū-buntansha) |
岩野 公司 東京都市大学, メディア情報学部, 教授 (90323823)
井上 中順 東京工業大学, 情報理工学院, 助教 (10733397)
宇都 有昭 東京工業大学, 情報理工学院, 助教 (90345356)
|
Project Period (FY) |
2019-04-01 – 2022-03-31
|
Keywords | 深層学習 / 音声認識 / 話者認識 |
Outline of Annual Research Achievements |
音声に関する音声認識、音声合成、話者認識などの様々なタスクを担当するエージェントが互いに競争・協調・調整しながら個々のタスクを学習する、マルチエージェントによる深層学習基盤を構築する。個々のタスクに関わる音声因子の間の含有・排他・共有などの関係を用いて音声データを因子分解することにより、個々のタスクの性能を高める。マルチタスク学習に比べ、少量・非均一のデータでより高い性能を得ることを目標とする。 初年度は、主にベースラインを構築した。「(A)音声と雑音の分離」に関しては、再構成損失を目的関数としてDenoising Auto Encoder (DAE)を学習することにより、雑音を重畳した音声から雑音を分離するシステムを構築した。従来はスペクトル特徴量を入力とする方法がもっぱら使われていたが、ここでは波形ベースでの特徴量を入力とする。「(B)音韻性と話者性の分離」に関しては、英語音声を対象とし、音声認識および話者認識のシステムを構築した。音声認識では600時間の学習データをもつTedlium3データベースを用いて時間遅れニューラルネットワーク(TDNN)と長・短期記憶(LSTM)を用いるシステムを構築した。話者認識では、7000人の計100万発話からなるVoxCeleb2データベースを用いて、ニューラルネットワークから得られた特徴量を入力として確率的線形判別分析(PLDA)を用いて判別を行うシステムを構築した。従来方法と認識性能が同等であることを確認した。また、「(C)データベース整備」では、上の(A),(B)で用いるデータベースを選定した。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
初期の計画のうち、話者の音声を双方向で変換する声質変換を行う深層ニューラルネットワークを構築する予定であったが、ベースライン構築に遅れが出たため、構築に至っていない。それ以外は計画通り進んでいる。
|
Strategy for Future Research Activity |
来年度は以下の研究を行う。まず「(A)音声と雑音の分離」では性能がまだ音声認識性能が従来の他手法に及ばない。他の手法を実装してベンチマーキングを行い、その結果を解析して原因を探り、提案法の性能向上を目指す。「(B)音韻性と話者性の分離」については、提案手法の実装を行い、音韻性と話者性の分離性能を評価する。最初は「調整器を用いる方法」を開発し、時間が許せば、次に「声質変換を用いる方法」を開発する。データベースとして昨年度音声認識システムの構築に用いた、Tedlium3データベースを話者認識の学習・評価もできるように一部設計しなおして用いる。また、これらの成果がある程度出た段階で、「音源分離」、「言語認識」、「感情認識」などの別の応用へと展開する。
|
Research Products
(2 results)