2020 Fiscal Year Research-status Report
Query-by-Singing music information Retrieval system supporting various singing style
Project/Area Number |
18K11321
|
Research Institution | Osaka Institute of Technology |
Principal Investigator |
鈴木 基之 大阪工業大学, 情報科学部, 教授 (30282015)
|
Project Period (FY) |
2018-04-01 – 2022-03-31
|
Keywords | 歌唱音声認識 / 大語彙言語モデル / 音素系列による検索 |
Outline of Annual Research Achievements |
歌唱音声からの高精度な歌詞認識法については本研究課題ですでに検討を行ってきたが,その中で「検索対象曲の歌詞から言語モデルを構築する」方法は非常に有効であった。しかし,ユーザが歌詞の一部を誤って入力した場合,検索対象曲の歌詞に含まれない単語に誤ったとすると,そうした単語が言語モデルに登録されていない事から,歌詞認識の精度が大きく低下してしまう。一般に言語モデルに登録されていない単語が入力されると,そこに(登録されている)別の単語を無理矢理あてはめる事になるため,その前後の単語にも影響が及び,周辺単語を含めて大きく認識結果が異なる,という事になる。 こうした事を防ぐため,言語モデルを検索対象曲の歌詞だけから構築するのではなく,一般の日本語文章全体から構築する必要があるが,この場合,言語モデルの制約が弱くなるため,認識精度の低下が予想される。そこで本年度は,言語モデルを一般日本語対象モデルへと変更した場合にどの程度精度が低下するのか,その結果検索性能にどの程度影響するのか,更に検索精度を向上させる方法について検討を行った。 言語モデルを一般日本語対象モデルへと変更する事で,歌詞の単語認識精度は77%→50%へ,また童謡48曲を登録したデータベースでの歌詞による検索精度は91%→80%へと低下することがわかった。この時,言語モデルを変更する事で誤認識単語は増加したが,どの単語へ誤認識するかは傾向があり,特に発音が似ている単語への誤認識が多い,ということがわかった。そこで,単語同士の発音の類似度を単語間距離として検索に用いた場合と,単語ではなく音素系列へと変換した後で検索を行う場合の2種類の方法を提案した。検索実験を行ったところ,音素系列へと変換することで93%の検索精度を達成し,検索対象曲の歌詞から構築した言語モデルでの検索精度を上回ることがわかった。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
当初の計画どおり,ユーザの記憶誤りに対応した楽曲検索システムの構築を行うことができた。特に音素系列を用いる事で,検索精度の観点からは従来よいと言われてきた検索対象曲の歌詞のみから言語モデルを構築する方法を越えた性能を達成した事は大きな意義がある。 一方で,当初予定されていた,歌詞検索とメロディ検索を統合した最終的な検索システムの構築についてはまだ開始できておらず,今後はこちらの開発を促進していく必要がある。
|
Strategy for Future Research Activity |
最終年度であるため,歌詞認識とメロディ認識の結果を統合した最終的な検索システムの構築を急ぐ。また,検索性能を検証するための歌唱データベースを構築し,最終的なシステムの性能評価を行う。
|
Causes of Carryover |
参加を予定していた国際会議や国内学会が軒並み新型コロナウイルス感染症の流行に伴なって中止やオンライン開催となり,旅費として予定していた予算をほとんど使用しなかったために残額が生じることとなった。 これらの予算は次年度において旅費にあてるとともに,最終的な成果物である楽曲検索システムのデモ展示用の機器の購入のための費用として執行していく予定である。
|
Research Products
(1 results)