前年度までの分析結果を元に,楽曲を擬音語へと自動変換するアルゴリズムの開発を行なった。音の波形を入力とし,それに関連するテキストを出力する,という意味においては,通常の音声認識と同様の構造となるため,HMMを用いた音声認識システムをベースとして開発を行なった。特徴量には,通常の音声認識で用いられるMFCCに加え,音高と音量も用いることで擬音語との対応をよりよく表現できるようにした。前年度開発した方法を用いて擬音語を自動で「単語」に分割し,n-gramを言語モデルとして擬音語への自動変換を行った。その結果,人間が同じ曲を擬音語で歌唱したテキストとの一致率は非常に低いものとなってしまったが,生成された擬音語を曲にあわせて視聴したところ,一部妥当である変換結果が得られていた。そこで80曲を変換した結果を人間により評価したところ,1曲の半分以上の部分で妥当であると判断された曲が20曲,部分的に妥当であると判断された曲まで含めると53曲が妥当な変換であると判断された。特に,ひとつの音符が長く演奏される部分は長音記号「ー」に,またスタッカートのような奏法の部分は促音「っ」に,力強く演奏された音は濁音に変換されるなど,特徴的な演奏部分の多くは妥当な擬音語に変換されていた。 また,前年度開発した時間制約を導入した歌唱音声認識法を改良し,より精度を高めた。時間制約には音符の区切り時刻情報を用いているが,実際は区切り時刻の推定ミス等があるため,認識性能が劣化しない範囲において,適切に制約を緩める必要がある。そこで音節間遷移の確率を制御する方法を提案し,最適な設定をすることで単語正解精度を92.0%にまで高めることに成功した。
|