研究課題/領域番号 |
19H04133
|
研究機関 | 東京工業大学 |
研究代表者 |
篠田 浩一 東京工業大学, 情報理工学院, 教授 (10343097)
|
研究分担者 |
井上 中順 東京工業大学, 情報理工学院, 准教授 (10733397)
岩野 公司 東京都市大学, メディア情報学部, 教授 (90323823)
宇都 有昭 東京工業大学, 情報理工学院, 助教 (90345356)
|
研究期間 (年度) |
2019-04-01 – 2022-03-31
|
キーワード | 深層学習 / 音声認識 / 話者認識 / 話者分離 / 感情認識 |
研究実績の概要 |
1年目に、「(A)音声と雑音の分離」において、波形を入力し、特徴量再構成損失を目的関数としたDenoising Auto Encoder (DAE)を構築した。また、「(C)データベース整備」を行った。2年目は、(A)で開発した手法を複数の話者の音声が重畳したデータから各話者の音声を分離する「(D)話者分離」に応用し、雑音の基底を用いることにより、耐雑音性の高い手法を構築した。「(B)音韻性と話者性の分離」では、1年目に英語音声を入力とした音声認識および話者認識のシステムを構築し、従来方法と認識性能が同等であることを確認し、2年目には調整器を用いる手法による分離システムの方式検討・実装を行った。さらに、「(E)言語認識・感情認識」のうち、感情認識の研究に着手した。これらを受け、最終年度である今年度は以下の研究を行った。まず「(B)音韻性と話者性の分離」の性能改善を行うとともに、オートエンコーダーを用いた声質変換による方式の開発・評価を行った。そして、この方式を感情認識の研究に適用して、我々の提案する因子分解を用いた手法が顕著な効果があることを確認した。この分野で標準的なIEMOCAPデータベースを用いた評価の結果、世界最高性能(発表当時)を達成し、IEEE ASRU2021に採択された。また、同じ手法を、人の性格を認識する性格認識に応用し、人間同士の会話を収録したUDIVAデータセットに対し、BigFiveの指標を用いて評価したところ、従来の画像を用いた手法に比べ、今回提案した音声を用いた手法のほうが性能が高いことを確認した。
|
現在までの達成度 (段落) |
令和3年度が最終年度であるため、記入しない。
|
今後の研究の推進方策 |
令和3年度が最終年度であるため、記入しない。
|