研究課題/領域番号 |
18K11321
|
研究機関 | 大阪工業大学 |
研究代表者 |
鈴木 基之 大阪工業大学, 情報科学部, 教授 (30282015)
|
研究期間 (年度) |
2018-04-01 – 2022-03-31
|
キーワード | 歌唱音声認識 / Query-by-Singing / 楽曲検索 |
研究実績の概要 |
本年度は歌唱音声の高精度音声認識法の開発を行った。歌唱音声は通常発声の音声と異なる特徴がある事から,専用の音声認識システムを開発する必要がある。音響モデルを歌唱音声から学習することで高精度化する方法は古くから提案されてきているが,その方法では,a. 長い音符に対応している歌詞は長い時間発話される,b. 休符等に対応した場所では,例えそれが単語の途中であったとしても息継ぎが行われる,という歌唱音声特有のふたつの問題に対処することができない。 そこでこれらの問題に対処する方法を開発した。問題 a. については,「ひとつの音符に対応する歌詞はひとつのモーラである事が多い」との仮定を置き,音符の区切り時刻とモーラの区切り位置を一致させるよう認識アルゴリズムの改良を行った。具体的には,音符の区切り時刻らしさを表すスコア(onset score)を各フレームごとに計算し,音声認識の特徴量ベクトルに追加した。その上で,onset scoreが高いフレームに対応させる特殊音素HMMを定義し,それを各モーラの間に挿入する事で,1音符と1モーラを対応させやすくした。 また問題 b. に対しては,各モーラの終了時刻が音符の終了時刻であることから,その位置に無音HMMを挿入し,息継ぎに対応するようにした。なお,息継ぎは挿入されない場合もある事から,無音HMMをスキップする遷移も同時に追加した。 歌唱音声を用いて認識実験を行ったところ,従来の方法では85.7%の認識精度であったものが,onset scoreを導入することで89.9%に,更に無音HMMを導入することで93.2%まで認識精度を向上させることができ,単語誤り率を50%以上削減させることができた。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
当初の計画どおり,歌唱音声の高精度音声認識を実現することができた。その認識精度は,単語誤り率を従来の方法の半分以下に抑えることができ,劇的に改善することに成功している。 一方,記憶間違いを含んだような歌唱音声データベースの収録を開始することはできなかったが,この作業は当初から2年をかけて行う予定となっており,来年度重点的に作業を行うことで,問題なくデータベースを構築できると考えている。
|
今後の研究の推進方策 |
当初の予定どおり研究を進めていく。 具体的には,歌唱誤りを含んだ音声が入力された場合への対処法を開発する。まずは歌詞をどのように誤ることが多いのか,関連研究の調査から開始し,実際にデータベースを収録しながら,その傾向を分析していく。それらの結果をふまえ,新たな楽曲についてもデータベースを収録することなく,自動で誤りに対応したデータベースを構築する方法を開発していく。
|
次年度使用額が生じた理由 |
本年度は,当初予定していた歌唱音声データベースの構築作業を開始しなかったため,それに関連する予算(謝金や収録用機材,データ整理作業用PC等)を執行しなかったことから,次年度使用額が生じることとなった。 次年度にはデータベースの構築作業を開始する予定である事から,これらの予算を予定どおり執行していく事となる。
|