語彙の確率的な構造を利用して実質的なエントロピーを下げることで高精度化を目指す音声認識を実現する新しい枠組みに取り組んでいる。今年度は、本枠組みが、テキスト独立型話者識別に応用できることを見出した。テキスト独立型話者識別では、学習用の音声データが、音素の種類・出現回数ともに非常に偏りがある。したがって、識別性能を高精度化するためには、音素ごとに、モデル形状やパラメータ数を適切に選択することが望ましい。昨年度に引き続き、スマートフォン上でのセキュリティ分野への応用を想定し、評価し数分程度の発話を学習データとして用いて、15%程度の誤り率を達成した。さらに別の応用として、ディジタルテレビ放送への話者ラベルアノテーションを試みた。ディジタルテレビ放送には全体の発話の50%しか話者ラベルが付与されていない。残りの発話に対し、話者識別技術でラベルを付与する。この応用でも、学習データが極めて少ないという問題がある。セキュリティ分野の応用と異なり、識別すべき話者ごとの学習データの偏りという問題も生じる。これまでの知見を活かし、正解判定率40%という結果が得られた。10名以上という多人数を少量データで識別しないといけないというのが低性能の理由である。今後の課題としては、これらの応用で性能向上を目指すのであれば、モデル自体の選択を併用すること、特徴量選択などを併用すること、などで、さらなる性能向上を図らなければならないという課題を得た。
|