主な実績を以下に抜粋する。 1) 以前より研究開発を進めていた旋律概形に基づく即興演奏システム「JamSketch」において、旋律生成手法を畳み込みニューラルネットワーク(CNN)ベースのものに更新した。CNNは段階的にデータを抽象化するため、階層的な拍節構造を持つ音楽と相性がいい。そこで、ブルースの即興演奏の旋律データセットに対して、旋律を平滑化することで疑似的に旋律概形を生成し、旋律概形を入力として元の旋律を出力とするCNNモデルを構築した。 2) 従前のJamSketchでは、旋律概形はユーザが描くものであったが、旋律概形自体も自動生成できるようにすることで、無から旋律を生成したり、ユーザが描いた旋律概形を修正してから旋律を生成したりすることが可能になる。そこで、旋律概形をLSTM-VAEを用いて学習・生成するモデルの検討を開始した。 3) ジャズのピアニストの演奏を対象に、発音時刻のビート時刻からのずれを可視化する方法を考案した。実在するピアニストの演奏を分析したところ、スウィングの度合いや表拍を含めた発音時刻のずれを読み取れることが示唆された。 4) ギター演奏を入力とし、それに合うベース演奏をaudio-to-audioで生成するためのモデルの初期検討を行った。ギター演奏音源からスペクトログラム、メルスペクトログラム、クロマグラムなどの特徴量を抽出し、CNNによってベース演奏のスペクトログラムを生成し、位相復元を行った音響信号に変換するモデルである。実験の結果、クロマグラムを用いたときが最も適切なベース音源が生成されることが分かった。一方、学習データと音響条件が大きく異なるギター音源が入力された場合、十分な精度が得られないことが課題である。
|