研究概要 |
本年度は,これまでの基礎研究の成果を踏まえて,剖検所見の音声入力化装置の開発を全員で行った.装置は,音声入力部,特徴抽出部,文認識部から構成される.音声入力部は,最近のコンピュータに附属の音声入力機能を利用し,12KHzでサンプリングされる.特徴抽出部では,フレーム周期10ms,フレーム窓長20ms(ハミング窓)で分析され,13次のLPCケプストラム,20ms間隔の対数パワー差分値,正規化残差パワーの計15次元の特徴ベクトルの時系列に変換される.さらに,音素標準パターンとの類似度が計算される.音素標準パターンは,各音素の特徴的なフレームを基準として前6フレーム,後3フレームの計10フレームの特徴ベクトル系列で構成される.入力音声の特徴ベクトルの時系列は,24個の音素標準パターンとフレームごとに比較され,24次元の音素類似度ベクトルの時系列に変換される.文認識部では,文章の言語モデルから生成された音節系列を子音・母音(CV)と母音・子音(VC)から構成される系列に変換する.CVとVCはそれぞれ類似度系列で表されているので,文章標準パターンも音素類似度ベクトルの系列で表される.この両方を比較し,最大のゆう度を与える文章を認識結果とするシステムである.言語モデルは,実際の剖検所見文書から自動的に構築する.構築された言語モデルは剖検所見の文書数が少ないので,似た言語環境を持つ単語を追加することによって一般的な言語モデルとした. システムの性能は十分とは言えず,今後も改善を続けていく.
|