研究概要 |
本研究は,人間と機械(特にコンピュータ)との間の情報伝達において,音声による入出力を積極的に導入し,人間にとって自然で使いやすいインタフェースを構築するための基礎的な知見を得ることを目標とするものである. 本年度は,まず,キーワードスポッティングと呼ばれる技術(連続音声中に現れるキーワードを逐次検出していく技術)を利用して,発声された音声信号に含まれる音響的情報をボトムアップに抽出する方法について検討した.発声形態が崩れる(人間の会話により近づく)につれて,認識性能にどのような変化が生じるか,という点に特に着目し,英語音声に対する音声認識率の推移を調査した結果,強調して発声したキーワードについては文法的な崩れがさほど大きな影響を与えないという知見を得た.同時に,音声の韻律的特徴(声の大きさやイントネーション等の特徴)の分析も行なった. 次に,実環境での音声認識における最も大きな問題である周辺雑音への対処について,マルチバンド型モデルに基づく音声認識手法を導入し,主に効果的なモデルの設計について情報理論に基づく定式化を提案した.日本語音声データを用いた実験の結果,提案したモデルを適用した場合に,未適用時に比べて最大25%の音声認識性能の向上を図ることができ,本手法の有効性が確認された. 次年度は,これらの検討結果をもとに,自然な音声インタフェースのための音声対話のタイミングに関する検討を行う予定である.
|