本研究課題はクラシックピアノ音楽を対象に,楽曲構造を中心とした楽譜情報から演奏表情の傾向を抽出し演奏表情モデルを構築することを目的としている. 令和4年度はCDやYouTubeから得られる音声データから音の鳴り始め(オンセット)を正確に検出することに関して,2方面から研究を行なった. オンセットを正確に検出する方法は従来から行われているが,従来の方法では正確に検出できる反面,計算量が莫大であり,低性能の計算機環境で実行することが困難である.そこで,複数の手法とそれらを融合したRNNを利用し,さらにネットワークの学習とピークピッキングを行う新しい手法を提案した.提案手法は,処理速度が半分になる代わりに,従来手法より性能がわずかながら向上しており,精度と速度のトレードオフを考慮した新たな選択肢となり,別の高速なオンセット検出関数を用いることによりさらに精度を上げることが期待できる. 一方,検出したオンセットと実際の音声信号との誤差の解析を行なった.3種類のシンセサイザーとの実演奏データを用いて,音声収録条件やベロシティ情報の事前情報がない場合を模擬した.その結果,実演奏の音量情報とシンセサイザーの選択により,ほとんどの場合,平均誤差が約2倍となることがわかった.また,位相に基づくオンセット検出と従来のフレームワークを組み合わせた実用的な試みも行い,異なるタイプのオーディオ特徴を組み合わせることの利点が示された. 研究期間全体としては,既存の演奏データベースによるデータを分析することで,実演奏のオンセット情報が正確に行われているという仮定の元でクラシックピアノ楽曲の演奏表情モデル生成のための演奏情報解析は一定レベルで行われた.また,既存のデータを用いない新たなデータを追加する目的でオンセット検出の方法やさまざまな環境下におけるオンセット検出の精度向上などの研究成果を上げることができた,
|