研究課題/領域番号 |
19H04133
|
研究種目 |
基盤研究(B)
|
配分区分 | 補助金 |
応募区分 | 一般 |
審査区分 |
小区分61010:知覚情報処理関連
|
研究機関 | 東京工業大学 |
研究代表者 |
篠田 浩一 東京工業大学, 情報理工学院, 教授 (10343097)
|
研究分担者 |
井上 中順 東京工業大学, 情報理工学院, 准教授 (10733397)
岩野 公司 東京都市大学, メディア情報学部, 教授 (90323823)
宇都 有昭 東京工業大学, 情報理工学院, 助教 (90345356)
|
研究期間 (年度) |
2019-04-01 – 2022-03-31
|
研究課題ステータス |
完了 (2022年度)
|
配分額 *注記 |
17,420千円 (直接経費: 13,400千円、間接経費: 4,020千円)
2021年度: 4,680千円 (直接経費: 3,600千円、間接経費: 1,080千円)
2020年度: 5,590千円 (直接経費: 4,300千円、間接経費: 1,290千円)
2019年度: 7,150千円 (直接経費: 5,500千円、間接経費: 1,650千円)
|
キーワード | 深層学習 / 音声認識 / 話者認識 / 話者分離 / 感情認識 |
研究開始時の研究の概要 |
音声に関する音声認識、音声合成、話者認識などの様々なタスクを担当するエージェントが互いに競争・協調・調整しながら個々のタスクを学習する、マルチエージェントによる深層学習基盤を構築する。個々のタスクに関わる音声因子の間の含有・排他・共有などの関係を用いて音声データを因子分解することにより、個々のタスクの性能を高める。マルチタスク学習に比べ、少量・非均一のデータでより高い性能を得ることを目標とする。
|
研究成果の概要 |
音声に関する音声認識、音声合成、話者認識などの様々なタスクを担当するエージェントがお互いに競争・協調・調整しながら個々のタスクを学習する、マルチエージェントによる深層学習基盤を提供することを目的し、研究を行った。複数の音声を分離する音声分離において、雑音を明示的に扱い、それも分離する対象に含めることで、耐雑音性の高い音声分離を実現した。また、話者認識、音声認識の結果を用いて、話者特徴と音韻特徴を音声特徴から分離することにより、感情認識の性能を向上させることができた。
|
研究成果の学術的意義や社会的意義 |
音声には音韻性、話者性、感情、など様々な特徴が含まれているが、それらの特徴間の関係を陽にモデル化することにより、音声認識、話者認識、感情認識など様々なタスクの性能を向上させる方法論を提案し、その有効性を確認した。音声処理の多くの用途に応用が可能であり、すでに精神疾患の診断や、人間の性格の診断などに効果があることを確認している。また音声以外の画像など様々なメディアの処理においても有効であることが期待される。
|