研究概要 |
本年度は,PHMMの一般化(GPHMMへの拡張)にあたり予備的な検討を行うとともに,GPHMMでの連続音声認識実験に先だって,まずPHMMの連続化を行った。具体的な成果は以下のとおりである。 1)PHMMの構造の一般化に関する予備実験: PHMMでは出力列と状態列の間で相関を考慮するデータ対が固定されているが,これを変更可能にした。最終的には,相関を持たせるデータ対として最適なものを自動決定することを目指すが,本年度は,系統的に相関を与えるデータ対を変化させて,その効果を調べた。この結果,フレーム間相関の時間遅れを30ms程度にするとき,音声認識率は最大となることが分かった。 2)連結学習による音素単位PHMMの学習: 連続単語認識を行う場合,サブワード単位のモデルの組合せで文を認識する必要がある。このとき,サブワード列の転記だけが与えられている学習データを用いて,サブワード単位の確率モデルを学習する(連結学習という)必要があるが,PHMMについてこの方式はまだ実現されていなかった。そこで,本年度においては,PHMMの連結学習のプログラムを作り,これを用いて音素単位PHMMを作った。 3)音素単位PHMMの連結による単語モデルの構成と単語音声認識実験: 2で作った音素単位PHMMを連結して単語モデルを作り,孤立発声の単語認識実験を行った。従来の結果は,孤立発声の単語音声データを学習データとして単語単位のPHMMを学習し,孤立発声の単語認識実験を行ったものであった。音素単位の連結によっても,PHMMは従来と同様に高い性能を与えることが確認できた。 4)PHMMを用いた連続音声認識: PHMMをベースとした,連続音声認識システムを作成した。
|