2019 年度実績報告書

認識・生成過程の統合に基づく視聴覚音楽理解

研究課題

研究課題/領域番号	19H04137
研究機関	京都大学
研究代表者	吉井和佳京都大学, 情報学研究科, 准教授 (20510001)
研究分担者	森島繁生早稲田大学, 理工学術院, 教授 (10200411) 河原達也京都大学, 情報学研究科, 教授 (00234104)
研究期間 (年度)	2019-04-01 – 2023-03-31
キーワード	音楽情報処理 / 音響信号処理 / 音声処理 / 画像処理
研究実績の概要	2019年度は、聴覚系による音楽理解の定量化として、まず、生成モデルと認識モデルの統合に基づく統計的自動採譜に取り組んだ。具体的には、コード認識タスクにおいて、コード系列から音響的特徴量系列が生成される過程を確率的生成モデルとして定式化し、その逆問題を解く、すなわち、音響的特徴量系列からコード系列を推定するための認識モデルを、償却型変分推論の枠組みで導入することで、両者を同時に最適化する方法を考案した。これにより、コードラベルが付与されていない音響信号も用いた半教師あり学習を可能にした。これは、人間が音楽を聴いて、そのコードを認識する際に、そのコードからどのような響きの音が発生するのかを同時に想像し、元の音楽との整合性を無意識的に考慮していることに相当していると考えられる。また、音楽の記号的な側面にも着目して研究を展開した。具体的には、ピアノの運指推定や、メロディのスタイル変換などの課題において、運指モデルや楽譜モデルを事前分布に導入し、身体的あるいは音楽的に妥当な推定結果を得るための統計的枠組みを考案した。さらに、音声理解の定量化して、音声スペクトルの深層生成モデルを事前分布に基いた音声強調法を開発すると同時に、高精度かつ高速なブラインド音源分離技術も考案し、音源モデル・空間モデルの両面から音理解の定量化に迫ることができた。一方、視覚系によるダンス動画理解の定量化に向けた第一段階として、画像中の人間の姿勢推定の研究の取り組みも開始した。また、楽器音を入力とすることで、高品質かつ音に合った自然な演奏映像の生成を実現した。具体的には、人の姿勢特徴量を介すことで、音と人物映像といった異なるドメイン間をマッピングするEnd-to-End学習が可能になった。
現在までの達成度 (区分)	現在までの達成度 (区分) 1: 当初の計画以上に進展している理由「研究実績の概要」に述べた通り、当初の目標である聴覚系・視覚系における音楽理解に向けて着実に進んでいる。音楽の自動採譜においては、想定以上の進展があった。
今後の研究の推進方策	生成モデルと認識モデルの統合に基づく自動採譜に関しては、コードに限らず、他の音楽要素との統合に向けて発展させていく予定である。また、画像に限らず、ダンス動画の解析についても同様の枠組みを適用していく。

研究成果

(8件)

すべて 2020 2019

すべて雑誌論文 (1件) (うち査読あり 1件) 学会発表 (7件) (うち国際学会 7件)

[雑誌論文] Statistical Learning and Estimation of Piano Fingering2020
- 著者名/発表者名
  Eita Nakamura, Yasuyuki Saito, Kazuyoshi Yoshii
- 雑誌名
  
  Information Sciences
  
  巻: 517 ページ: 68-85
- DOI
  10.1016/j.ins.2019.12.068
- 査読あり
[学会発表] Audio-Guided Video Interpolation via Human Pose Features2020
- 著者名/発表者名
  Takayuki Nakatsuka, Masatoshi Hamanaka, Shigeo Morishima
- 学会等名
  International Conference on Computer Vision Theory and Applications (VISAPP)
- 国際学会
[学会発表] Statistical Music Structure Analysis Based on a Homogeneity-, Repetitiveness-, and Regularity-Aware Hierarchical Hidden Semi-Markov Model2019
- 著者名/発表者名
  Go Shibata, Ryo Nishikimi, Eita Nakamura, Kazuyoshi Yoshii
- 学会等名
  International Society for Music Information Retrieval Conference (ISMIR)
- 国際学会
[学会発表] Blending Acoustic and Language Model Predictions for Automatic Music Transcription2019
- 著者名/発表者名
  Adrien Ycart, Andrew McLeod, Emmanouil Benetos, Kazuyoshi Yoshii
- 学会等名
  International Society for Music Information Retrieval Conference (ISMIR)
- 国際学会
[学会発表] End-to-End Melody Note Transcription Based on a Beat-Synchronous Attention Mechanism2019
- 著者名/発表者名
  Ryo Nishikimi, Eita Nakamura, Masataka Goto, Kazuyoshi Yoshii
- 学会等名
  IEEE Workshop on Applications of Signal Processing to Audio and Acoustics (WASPAA)
- 国際学会
[学会発表] Joint Singing Pitch Estimation and Voice Separation Based on a Neural Harmonic Structure Renderer2019
- 著者名/発表者名
  Tomoyasu Nakano, Kazuyoshi Yoshii, Yiming Wu, Ryo Nishikimi, Kin Wah Edward Lin, Masataka Goto
- 学会等名
  IEEE Workshop on Applications of Signal Processing to Audio and Acoustics (WASPAA)
- 国際学会
[学会発表] Multi-Step Chord Sequence Prediction Based on Aggregated Multi-Scale Encoder-Decoder Networks2019
- 著者名/発表者名
  Tristan Carsault, Andrew McLeod, Philippe Esling, Jerome Nika, Eita Nakamura, Kazuyoshi Yoshii
- 学会等名
  IEEE International Workshop on Machine Learning for Signal Processing (MLSP)
- 国際学会
[学会発表] Automatic Chord Estimation Based on a Frame-wise Convolutional Recurrent Neural Network with Non-Aligned Annotations2019
- 著者名/発表者名
  Yiming Wu, Tristan Carsault, Kazuyoshi Yoshii. Automatic Chord Estimation Based on a Frame-wise Convolutional Recurrent Neural Network with Non-Aligned Annotations
- 学会等名
  European Signal Processing Conference (EUSIPCO)
- 国際学会

2019 年度 実績報告書

認識・生成過程の統合に基づく視聴覚音楽理解

研究代表者

吉井 和佳 京都大学, 情報学研究科, 准教授 (20510001)

現在までの達成度 (区分)

理由

研究成果

[雑誌論文] Statistical Learning and Estimation of Piano Fingering2020

著者名/発表者名

雑誌名

DOI

[学会発表] Audio-Guided Video Interpolation via Human Pose Features2020

著者名/発表者名

学会等名

[学会発表] Statistical Music Structure Analysis Based on a Homogeneity-, Repetitiveness-, and Regularity-Aware Hierarchical Hidden Semi-Markov Model2019

著者名/発表者名

学会等名

[学会発表] Blending Acoustic and Language Model Predictions for Automatic Music Transcription2019

著者名/発表者名

学会等名

[学会発表] End-to-End Melody Note Transcription Based on a Beat-Synchronous Attention Mechanism2019

著者名/発表者名

学会等名

[学会発表] Joint Singing Pitch Estimation and Voice Separation Based on a Neural Harmonic Structure Renderer2019

著者名/発表者名

学会等名

[学会発表] Multi-Step Chord Sequence Prediction Based on Aggregated Multi-Scale Encoder-Decoder Networks2019

著者名/発表者名

学会等名

[学会発表] Automatic Chord Estimation Based on a Frame-wise Convolutional Recurrent Neural Network with Non-Aligned Annotations2019

著者名/発表者名

学会等名

2019 年度実績報告書

吉井和佳京都大学, 情報学研究科, 准教授 (20510001)