2022 Fiscal Year Annual Research Report
親近性と新奇性に基づく人間とAIのコミュニケーションモデルおよびその音楽での実現
Project/Area Number |
22H03711
|
Allocation Type | Single-year Grants |
Research Institution | Nihon University |
Principal Investigator |
北原 鉄朗 日本大学, 文理学部, 教授 (00454710)
|
Co-Investigator(Kenkyū-buntansha) |
大澤 正彦 日本大学, 文理学部, 准教授 (40875803)
|
Project Period (FY) |
2022-04-01 – 2026-03-31
|
Keywords | 旋律の予測・生成 / 機械学習 / ディープラーニング / 即興演奏 |
Outline of Annual Research Achievements |
旋律概形に基づく即興演奏システム「JamSketch」の高度化に向け、畳み込みニューラルネットワーク(CNN)を用いてメロディを生成する新バージョンを開発した。CNNは、段階的に要素数を減らすフィルタ計算をすることで、段階的に抽象度の高い情報を取り出す技術である。そのため、フィルタを拍節構造に合わせて設計することで、拍節構造を考慮した情報抽出ができると考えられる。人間が作ってメロディを変換したものと比較したところ、CNNモデルによって自動生成されたメロディは、前者と区別できない程度のクオリティであることが分かった。ただし、人間が実際に演奏したメロディとの比較ではないことに注意が必要である。その他、次に挙げる技術を実現した。 ・ジャズピアノの実演奏に対してタイミングのずれを単位円上に可視化する手法を考案し、プロのジャズピアニストによる演奏を入力し、演奏ごとのタイミングの傾向を議論した。その結果、スウィングしながら8分音符を弾いている演奏、スウィングせずに弾いている演奏、3連符を多く弾いている演奏などを区別できることが明らかになった。 ・ギター演奏を入力すると、クロマベクトルなどを抽出し、畳み込みニューラルネットワークによってベースパートのスペクトログラムに変換する手法を考案した。比較的単純なコード演奏の、ギターとベースのペアデータを作成し、ベースパートの生成を試したところ、ある程度妥当なベースパートが生成されるものの、音質劣化が無視できない程度に存在することが明らかになった。 前述のJamSketchに関する研究成果は、新型コロナウイルス感染症の蔓延のために、令和4年度に国際会議で発表することを断念したために、そのための費用を1年間繰り越し、令和5年度に行われた国際会議にて発表した。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
メロディ生成をディープラーニングで行うための工夫点を書籍としてまとめたことで、学生などの研究補助者に対して効率的に技術指導を行い、多彩な研究を実施することができた。そのため、多岐にわたる研究成果を生み出すことができた。一方で、書籍としてまとめることに時間がかかり、個々の研究の進行には若干の課題が残った。
|
Strategy for Future Research Activity |
ディープラーニングを用いたメロディの予測・分析・生成について、今後も改善を進めていく。特に、これまで作成したプログラムの設計が古くなり、拡張が困難になりつつあるので、一度作り直し、GitHub上でオープンソースソフトウェアとして公開し、他の研究者による利用を促したい。 また、ここ2年程度で大規模言語モデル、テキストからの画像生成モデルが登場し、音楽に関しても汎用的な音楽生成モデルが出始めているなど、状況が一変している。それにともない、新規性のある研究成果を生み出すには、必要なモデルの規模、学習データの規模が拡大している。それに対応するために、必要に応じて外部の大規模クラウド計算サービスを活用していく。 さらに、これまでと同様に応用システムの開発も進め、最終年度の実験に備えていく。
|