研究課題/領域番号 |
20K21813
|
研究種目 |
挑戦的研究(萌芽)
|
配分区分 | 基金 |
審査区分 |
中区分61:人間情報学およびその関連分野
|
研究機関 | 京都大学 |
研究代表者 |
吉井 和佳 京都大学, 情報学研究科, 准教授 (20510001)
|
研究期間 (年度) |
2020-07-30 – 2022-03-31
|
研究課題ステータス |
完了 (2021年度)
|
配分額 *注記 |
6,370千円 (直接経費: 4,900千円、間接経費: 1,470千円)
2021年度: 2,730千円 (直接経費: 2,100千円、間接経費: 630千円)
2020年度: 3,640千円 (直接経費: 2,800千円、間接経費: 840千円)
|
キーワード | 音響信号処理 / 音源分離 / 残響除去 / 深層学習 / 最尤推定 / 音声強調 / 音声認識 |
研究開始時の研究の概要 |
本研究では、物理拘束付きの多様な音響信号の統一的な深層生成モデルの定式化と、その逆問題としての教師なし学習について取り組む。任意の空間/音源特性を表現可能なユニバーサル音響生成モデルを定式化し、自律的に各種条件の類型化を行うとともに、バックエンドタスク(音声認識・音響イベント検出)との統合を行う。
|
研究成果の概要 |
本研究の目的は、音声・音楽・環境音など多岐にわたるあらゆる種類の音を、適応的かつ頑健に分析できるユニバーサル音響理解モデルを確立することである。具体的には、最近我々が提案した、高速かつ高精度な最新の汎用ブラインド音源分離 (BSS) 手法である高速多チャネル非負値行列因子分解 (FastMNMF) に関して、音源モデル・空間モデル・尤度関数の改良を行い、分離モデルや残響モデルとの同時学習を実現した。また、音声認識との統合についても取り組んだ。
|
研究成果の学術的意義や社会的意義 |
本研究を通じて、人間が持つ音理解能力の創発的な側面、すなわち、正解の教示を受けなくても、多様な音が重畳する実環境とのインタラクションを通じて、音を個別に理解する能力に対し、一定の構成論的説明と統計的エビデンスを与えることができた。技術的には、ペアデータを前提とした深層学習モデルの教師あり学習から脱却し、尤度最大化の枠組みに基づく教師なし学習を主軸とすることで、大規模な音響信号データ利用への道筋を開いた。
|