Audio-Visual Music Understanding Based on Integration of Recognition and Generative Processes
Project/Area Number |
19H04137
|
Research Category |
Grant-in-Aid for Scientific Research (B)
|
Allocation Type | Single-year Grants |
Section | 一般 |
Review Section |
Basic Section 61010:Perceptual information processing-related
|
Research Institution | Kyoto University |
Principal Investigator |
|
Co-Investigator(Kenkyū-buntansha) |
河原 達也 京都大学, 情報学研究科, 教授 (00234104)
森島 繁生 早稲田大学, 理工学術院, 教授 (10200411)
|
Project Period (FY) |
2019-04-01 – 2023-03-31
|
Project Status |
Completed (Fiscal Year 2022)
|
Budget Amount *help |
¥17,160,000 (Direct Cost: ¥13,200,000、Indirect Cost: ¥3,960,000)
Fiscal Year 2022: ¥4,290,000 (Direct Cost: ¥3,300,000、Indirect Cost: ¥990,000)
Fiscal Year 2021: ¥4,160,000 (Direct Cost: ¥3,200,000、Indirect Cost: ¥960,000)
Fiscal Year 2020: ¥3,640,000 (Direct Cost: ¥2,800,000、Indirect Cost: ¥840,000)
Fiscal Year 2019: ¥5,070,000 (Direct Cost: ¥3,900,000、Indirect Cost: ¥1,170,000)
|
Keywords | 自動採譜 / 自動編曲 / 姿勢推定 / 確率的生成モデル / 深層学習 / 償却型変分推論 / 音楽情報処理 / 信号処理 / 記号処理 / ベイズ学習 / 音響信号処理 / 音声処理 / 画像処理 |
Outline of Research at the Start |
音楽理解の核心は、音楽/身体感覚の獲得にあると考える。人間は、特別な訓練なしに、実体験から、音楽はこういうものである、身体はこのように動かせるといった、明文化が困難な内的感覚を獲得している。このおかげで、音楽的に破綻のない楽譜を書き起こせるし、ダンス映像から3D姿勢を想像できる。この仕組みを計算機上で実現し、音響/映像データに関する各種認識/生成タスクの性能限界の突破に挑むとともに、人間の音楽理解の構成論的解明に取り組む。
|
Outline of Final Research Achievements |
As for auditory understanding, we have developed a unified approach based on statistical inference of probabilistic generative models to various important subtasks of automatic music transcription including singing voice transcription, music structure analysis, chord and key estimation, and drum transcription. We showed that the generative and inference models can be integrated in the VAE framework. As for visual understanding, we have developed a pose estimation method based on the same approach.
|
Academic Significance and Societal Importance of the Research Achievements |
人間が視聴覚を通じて音楽を理解する機構に対して、表裏一体の関係にある生成過程と推論過程を統合した計算モデルを提示することができた。このモデルは、認知科学分野で知られていたミラーニューロン仮説に着想を得ており、統計的機械学習の見地からは、変分自己符号化器 (VAE) として定式化できることを示した。自動採譜のいくつかの課題や姿勢推定でこのモデルの有効性を示した。
|
Report
(5 results)
Research Products
(46 results)