2022 Fiscal Year Annual Research Report
Query-by-Singing music information Retrieval system supporting various singing style
Project/Area Number |
18K11321
|
Research Institution | Osaka Institute of Technology |
Principal Investigator |
鈴木 基之 大阪工業大学, 情報科学部, 教授 (30282015)
|
Project Period (FY) |
2018-04-01 – 2023-03-31
|
Keywords | 楽曲検索 / Query-by-Singing / 歌唱音声認識 / 歌詞誤りに頑健な検索 |
Outline of Annual Research Achievements |
本年度は,メロディと歌詞を用いた検索方法について,昨年度発覚したプログラムの不具合を修正するとともに得られた結果を詳細に分析し,アルゴリズムの性能を評価した。また,今まで数々提案してきた歌唱音声認識システムの精度向上法について,その効果の検証を行った。 検索方法については,不具合の修正後検索実験のやり直しを行ったところ,昨年度提案した「データベース中の位置を考慮した統合方法」はかえって精度を低下させることがわかった。結果を詳細に分析したところ,特徴量ブロックの位置の解像度が粗いため,正確に位置あわせができていない部分があることがわかった。そこで解像度を上げたところ,計算時間は増加したが,検索精度は向上した。しかし,位置を考慮しない方法と同程度の精度にとどまり,精度向上を達成することはできなかった。 歌唱音声認識の精度向上法として今まで提案してきた,音響,言語モデルの再学習,音符の区切り時刻情報の利用,無音モデルの挿入,という4つの方法について,それぞれ利用する/しないのすべての組み合わせについて歌唱音声認識実験を行い,精度を比較した。すべての方法を用いた時に最もよい性能を示したが,音響,言語モデルは両方再学習した時に非常に大きな改善が見られること,無音モデルも音響,言語両モデルの再学習と組み合わせた時に効果が大きくなる事がわかった。一方,音符の区切り時刻情報の利用は,より認識に時間をかけ,多くの認識候補を考慮するセッティングにおいてのみ効果を発揮することがわかった。 研究期間全体を通しては,歌唱音声認識の高精度化,歌詞誤りに対する対処法を提案し,それらを組み合わせた高精度検索法を実現させることができた。検索法についてはプログラムの不具合といったトラブルもあり,精度向上に繋がるアルゴリズムの提案まですることはできなかったが,おおむね研究計画どおりに実施することができた。
|