研究課題/領域番号 |
19H04137
|
研究機関 | 京都大学 |
研究代表者 |
吉井 和佳 京都大学, 情報学研究科, 准教授 (20510001)
|
研究分担者 |
森島 繁生 早稲田大学, 理工学術院, 教授 (10200411)
河原 達也 京都大学, 情報学研究科, 教授 (00234104)
|
研究期間 (年度) |
2019-04-01 – 2023-03-31
|
キーワード | 音楽情報処理 / 音響信号処理 / 音声処理 / 画像処理 |
研究実績の概要 |
2019年度は、聴覚系による音楽理解の定量化として、まず、生成モデルと認識モデルの統合に基づく統計的自動採譜に取り組んだ。具体的には、コード認識タスクにおいて、コード系列から音響的特徴量系列が生成される過程を確率的生成モデルとして定式化し、その逆問題を解く、すなわち、音響的特徴量系列からコード系列を推定するための認識モデルを、償却型変分推論の枠組みで導入することで、両者を同時に最適化する方法を考案した。これにより、コードラベルが付与されていない音響信号も用いた半教師あり学習を可能にした。これは、人間が音楽を聴いて、そのコードを認識する際に、そのコードからどのような響きの音が発生するのかを同時に想像し、元の音楽との整合性を無意識的に考慮していることに相当していると考えられる。また、音楽の記号的な側面にも着目して研究を展開した。具体的には、ピアノの運指推定や、メロディのスタイル変換などの課題において、運指モデルや楽譜モデルを事前分布に導入し、身体的あるいは音楽的に妥当な推定結果を得るための統計的枠組みを考案した。さらに、音声理解の定量化して、音声スペクトルの深層生成モデルを事前分布に基いた音声強調法を開発すると同時に、高精度かつ高速なブラインド音源分離技術も考案し、音源モデル・空間モデルの両面から音理解の定量化に迫ることができた。一方、視覚系によるダンス動画理解の定量化に向けた第一段階として、画像中の人間の姿勢推定の研究の取り組みも開始した。また、楽器音を入力とすることで、高品質かつ音に合った自然な演奏映像の生成を実現した。具体的には、人の姿勢特徴量を介すことで、音と人物映像といった異なるドメイン間をマッピングするEnd-to-End学習が可能になった。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
1: 当初の計画以上に進展している
理由
「研究実績の概要」に述べた通り、当初の目標である聴覚系・視覚系における音楽理解に向けて着実に進んでいる。音楽の自動採譜においては、想定以上の進展があった。
|
今後の研究の推進方策 |
生成モデルと認識モデルの統合に基づく自動採譜に関しては、コードに限らず、他の音楽要素との統合に向けて発展させていく予定である。また、画像に限らず、ダンス動画の解析についても同様の枠組みを適用していく。
|