平成23年度から24年度に実施した研究では,主に口形検出モジュールの構築と検出精度の改善を行った.発話映像中の基本口形(母音口形+閉唇口形)の検出と,それぞれの口形が形成されている期間の検出の精度向上を行った.口形期間の自動検出にはオプティカルフローと呼ばれる方法を取り入れ,口唇周辺の動きの総量を計測することで,検出精度の向上につながった.結果的に,現段階での口形検出精度は約83%と,当初目標としていた90%にはとどかなかったが,初期の口形検出率からは約13%向上した. 平成25年度は,発話単語認識モジュールの構築を行った.入力した発話映像から検出した口形の順序と,認識対象単語の口形順序とを比較し,それらのマッチング数に応じて得点(スコア)を付与する.これにより,より高得点の単語が発話単語である確率が高くなる.しかしこの方式では,音が似ていて長さの少し異なる単語の場合に,同程度の得点になることがあり,判別が難しくなる.そこで,単語の口形数を考慮に入れた信頼率を導入し,それらの積によって発話単語の認識を行った.発話単語認識モジュールの評価として,47都道府県名を対象にした単語認識実験を実施した.実験の結果,発話単語が第1位として認識された都道府県名は36あり,約77%の認識率となった.さらに,発話単語が上位5位以内に含まれる場合までみると,単語認識率は約85%という結果になった. これらの結果を踏まえ,平成25年度は国内のシンポジウムで1件の発表を行った.また,これらの成果をまとめて,平成26年度の国内シンポジウムと国際会議でそれぞれ1件の発表を行う予定である.
|