2003 Fiscal Year Annual Research Report
Project/Area Number |
14655144
|
Research Institution | Kushiro National College of Technology |
Principal Investigator |
大槻 典行 釧路工業高等専門学校, 情報工学科, 教授 (30141857)
|
Keywords | 音声認識 / ニューラルネットワーク / 不十分な発話 / 自己組織化 / HMM法 |
Research Abstract |
発話に障害を持つ人の音声認識を実現する手法の検討を行った.発話に障害がある場合の音声スペクトルの分析の結果,障害のある発話音声では認識時に重要な特徴量となるフォルマント構造を明確に捉えることができず,正常な発声の場合と大きく異なったスペクトル構造を持つことを明らかにした.これにより,障害のある発話音声に対する音声認識率は十分と言えないものであった.この音声に対するHMM法による音声認識率の低下は,HMM法における音響モデルおよび状態数を適切にすることができなくなるためと推測した.そこで,音響モデルの影響を受けにくい自己組織化入力層を持つニューラルネットワークを用いた音声認識手法の導入を行った.この手法の自己組織化部分は,音声の未知のスペクトル構造を学習により取得するため,明確な音響モデルを持たない音声に有用である. 実験では,実時間の音声認識に近い動作をさせるため,実験に用いた音声データを特徴抽出後全て半導体ストレージ(RAM Disk)上に置き高速アクセス可能にした.作成した音声データベースを用いて,音声認識シミュレーション実験を行った.この実験では音素単位の認識を目的としたため,フォルマント構造が明確に現れない障害のある発話音声で,十分な認識率を得ることができなかった.そこで,認識単位を複数の音素(例えば単語単位)にすることで認識率向上を図った.十分ではないが認識率が向上した. 以上に加えて,実利用環境における音声認識の為に,周囲の加法性の雑音の影響を除去する手法を取り入れた.これは,周波数領域における雑音除去法であり実音声に対し十分な効果が得られた. 音声認識システムとして音声認識結果の出力を音声合成ライブラリを利用して合成音声で行った.これらは,現段階では実時間動作ではなくバッチ処理になっている. 以上の成果は,研究紀要第38号に掲載予定である.
|