2022 年度研究成果報告書

マルチエージェント深層学習による音声因子分解

研究課題

PDF

研究課題/領域番号	19H04133
研究種目	基盤研究(B)
配分区分	補助金
応募区分	一般
審査区分	小区分61010:知覚情報処理関連
研究機関	東京工業大学
研究代表者	篠田浩一東京工業大学, 情報理工学院, 教授 (10343097)
研究分担者	井上中順東京工業大学, 情報理工学院, 准教授 (10733397) 岩野公司東京都市大学, メディア情報学部, 教授 (90323823) 宇都有昭東京工業大学, 情報理工学院, 助教 (90345356)
研究期間 (年度)	2019-04-01 – 2022-03-31
キーワード	深層学習 / 音声認識 / 話者認識 / 話者分離 / 感情認識
研究成果の概要	音声に関する音声認識、音声合成、話者認識などの様々なタスクを担当するエージェントがお互いに競争・協調・調整しながら個々のタスクを学習する、マルチエージェントによる深層学習基盤を提供することを目的し、研究を行った。複数の音声を分離する音声分離において、雑音を明示的に扱い、それも分離する対象に含めることで、耐雑音性の高い音声分離を実現した。また、話者認識、音声認識の結果を用いて、話者特徴と音韻特徴を音声特徴から分離することにより、感情認識の性能を向上させることができた。
自由記述の分野	機械学習
研究成果の学術的意義や社会的意義	音声には音韻性、話者性、感情、など様々な特徴が含まれているが、それらの特徴間の関係を陽にモデル化することにより、音声認識、話者認識、感情認識など様々なタスクの性能を向上させる方法論を提案し、その有効性を確認した。音声処理の多くの用途に応用が可能であり、すでに精神疾患の診断や、人間の性格の診断などに効果があることを確認している。また音声以外の画像など様々なメディアの処理においても有効であることが期待される。