研究概要 |
人間の持つ非常に高度な適応・学習能力を積極的に活用した,人をパターン認識器に適応させる為に必要な技術の開発を目的とし,想定話者の発話の特徴と実際の話者のミスマッチを解決するための技術と,それらを利用者に対して通知し,改善を促すための枠組みの検討を行った.ミスマッチに関しては,利用環境における雑音のミスマッチ(環境要因)もあるが,本研究では発話様式に関するミスマッチ(話者要因)に注目し,認識システムが認識しやすい発話様式を学習するために必要な枠組みの検討を行った.具体的には,1.合計50名の被験者に対して発話様式に関する指示の複数与えながらの発話を収録,2.発話様式の変化を音響的な特徴の変化の分析とモデル化,3.入力音声の音響的特徴量と,与えた指示語の系列から,認識率を改善するために有効な指示語を決定するための識別器の開発を行った.1.では連続数字の孤立単語認識用語彙を設計した.指示語としては,速度・大きさ・高さ・明瞭さに関する4つの軸に関する語を用意した.2.では,音響的な特徴量としてパワー,発話速度,基本周波数滑舌度を定義した.速度・大きさ・高さに関する指示が,これらの特徴量の変化に対して優位に影響を与えることを明らかにした.また,認識システムから得られる単語事後確率,認識結果,指示語の履歴,指示内容を用いたモデル化を行った.3.では,2のモデルを用いて,SVMによる識別器を構築した.実験では,線形カーネル,多項式カーネル,ガウシアンカーネルを使用した場合で比較を行った.ガウシアンカーネルを使用した,20名を学習データとした時の交差検定における結果が最も良く,識別率は65%であったが,語彙に非依存な指示語だけを与えることの限界が示された.すなわち,認識率の改善に有効な発話様式及びその指示は語彙依存性が高く,語彙依存性を考慮した話者誘導の方式の必要性が示された.
|