研究概要 |
本年度は「剖検所見の音声入力化装置」の音素認識部の開発に重点を置いた。音素認識の方法としては、最近よく用いられているHMM(Hidden Markov Model)に基づく方法を採用した。HMMでも前後の音素環境と学習サンプル数を考慮したHM-netという方法がもっともよく用いられている。我々は、このHM-netを構築する方法の問題点を指滴し、欠点を克服した新たなHM-net構築法を提案した。すなわち、音響的類似性を基にしてHM-netを構築する方法である。同じ学習サンプルに対して、従来の方法で構築したHM-netと我々の方法で構築したHM-netの構造を比較したところ、従来の方法ではHM-netが構築できない音素が存在していたが、我々の方法では、全ての音素についてHM-netが構築でき、かつ音素の物理的性質をよく表していることが明らかになった。次に、音素認識実験によって我々の方法の有効性を認識した。2種類の音素グループに対して特定話者音素認識実験を行った。音声は12kHzでサンプリングされ、フレーム周期5msで対数パワーやケプストラムからなる34次元ベクトルに変換された。この34次元ベクトルの系列を用いて従来の方法と我々の提案した方法でそれぞれHM-netを構築した。8人の話者が発声した/b,d,g,m,n,N/の6子音の音素認識実験では、音素認識率は従来の方法で90.6%、我々の提案した方法で91.5%であった。4人の話者の発声した全音素の認識実験では、従来の方法で91.3%,我々の方法で93.1%といずれの実験でも高い音素認識率を得ることができた。
|