研究課題/領域番号 |
19H04137
|
研究種目 |
基盤研究(B)
|
配分区分 | 補助金 |
応募区分 | 一般 |
審査区分 |
小区分61010:知覚情報処理関連
|
研究機関 | 京都大学 |
研究代表者 |
吉井 和佳 京都大学, 情報学研究科, 准教授 (20510001)
|
研究分担者 |
河原 達也 京都大学, 情報学研究科, 教授 (00234104)
森島 繁生 早稲田大学, 理工学術院, 教授 (10200411)
|
研究期間 (年度) |
2019-04-01 – 2023-03-31
|
研究課題ステータス |
完了 (2022年度)
|
配分額 *注記 |
17,160千円 (直接経費: 13,200千円、間接経費: 3,960千円)
2022年度: 4,290千円 (直接経費: 3,300千円、間接経費: 990千円)
2021年度: 4,160千円 (直接経費: 3,200千円、間接経費: 960千円)
2020年度: 3,640千円 (直接経費: 2,800千円、間接経費: 840千円)
2019年度: 5,070千円 (直接経費: 3,900千円、間接経費: 1,170千円)
|
キーワード | 自動採譜 / 自動編曲 / 姿勢推定 / 確率的生成モデル / 深層学習 / 償却型変分推論 / 音楽情報処理 / 信号処理 / 記号処理 / ベイズ学習 / 音響信号処理 / 音声処理 / 画像処理 |
研究開始時の研究の概要 |
音楽理解の核心は、音楽/身体感覚の獲得にあると考える。人間は、特別な訓練なしに、実体験から、音楽はこういうものである、身体はこのように動かせるといった、明文化が困難な内的感覚を獲得している。このおかげで、音楽的に破綻のない楽譜を書き起こせるし、ダンス映像から3D姿勢を想像できる。この仕組みを計算機上で実現し、音響/映像データに関する各種認識/生成タスクの性能限界の突破に挑むとともに、人間の音楽理解の構成論的解明に取り組む。
|
研究成果の概要 |
聴覚系に関する研究成果として、歌声採譜、拍節構造推定、楽曲構造推定、コード・キー推定、ドラム採譜など、自動採譜を構成する重要なサブタスクに対して、確率的生成モデルとその統計的推論という統一的なアプローチに基づく解決法を提示することができた。いくつかのタスクで、変分自己符号化器 (VAE) を構成することで、理論的には両者を同時に教師なし学習できることを示した。視覚系に関する研究成果として、画像中の人間の二次元姿勢推定において、聴覚系と同様に、確率的生成モデルとその統計的推論という統一的なアプローチに基づく解決法を提示することができた。
|
研究成果の学術的意義や社会的意義 |
人間が視聴覚を通じて音楽を理解する機構に対して、表裏一体の関係にある生成過程と推論過程を統合した計算モデルを提示することができた。このモデルは、認知科学分野で知られていたミラーニューロン仮説に着想を得ており、統計的機械学習の見地からは、変分自己符号化器 (VAE) として定式化できることを示した。自動採譜のいくつかの課題や姿勢推定でこのモデルの有効性を示した。
|