研究概要 |
人間の持つ非常に高度な適応・学習能力を積極的に活用した, 人をパターン認識器に適応させるた為に必要な技術の開発を目的とし, 想定話者の発話の特徴と実際の話者のミスマッチを解決するための技術と, それらを利用者に対して通知し, 改善を促すための枠組みの検討を行った. 具体的には, まず1. 合計50名の被験者に対して発話様式に関する指示の複数与えながらの発話を収録, 2. 発話様式の変化を音響的な特徴の変化の分析とモデル化, 3. 入力音声の音響的特徴量と, 与えた指示語の系列から, 認識率を改善するために有効な指示語を決定するための識別器の開発を行った. 連続数字の孤立単語認識用語彙を利用し, 速度・大きさ・高さ・明瞭さに関する4つの軸に関する指示語を設計した. パワー, 発話速度, 基本周波数, 滑舌度を定義し, 指示語と相関があることを明らかにした. さらにSVMによる識別器を構築した. 実験では, ガウシアンカーネルを使用し, 20名を学習データとした時の交差検定における結果が最も良く, 識別率は6596であった. しかしながら, ここで用意した一般的な指示方式では発話様式を改善する効果は得られなかった. 次に語彙依存の指示を与えるために必要な枠組みの構築を行った. ここでは, 音声認識のエキスパートによる, 音声認識を成功させるために取られる発話に関する工夫を提示する枠組みを検討した. 具体的には, 1. エキスパートに対して複数単語の音声認識実験を行い, 認識エラーが発生した語に対して再度発話を要求し, その際に行った発話様式の工夫を収集, 2. 発話様式に関する工夫の分析とモデル化, 3. 語を入力, 指示語を出力としたエキスパートシステムの構築を行った. 発話困難性を考慮に入れた語彙を設計し, 意味的に近い工夫を人手で分析することで, 子音・母音, 先頭の語彙等が考慮したはっきり, ゆっくり等の指示語に関する決定木の構築が可能なことを明らかにした.
|