2000 Fiscal Year Annual Research Report
状態・出力に相互依存性を有する確率モデルに基づく高精度な音声・ジェスチャ認識
Project/Area Number |
12680399
|
Research Institution | Waseda University |
Principal Investigator |
小林 哲則 早稲田大学, 理工学部, 教授 (30162001)
|
Keywords | 確率モデル / 音響モデル / 音声認識 |
Research Abstract |
本年度は,PHMMの一般化(GPHMMへの拡張)にあたり予備的な検討を行うとともに,GPHMMでの連続音声認識実験に先だって,まずPHMMの連続化を行った。具体的な成果は以下のとおりである。 1)PHMMの構造の一般化に関する予備実験: PHMMでは出力列と状態列の間で相関を考慮するデータ対が固定されているが,これを変更可能にした。最終的には,相関を持たせるデータ対として最適なものを自動決定することを目指すが,本年度は,系統的に相関を与えるデータ対を変化させて,その効果を調べた。この結果,フレーム間相関の時間遅れを30ms程度にするとき,音声認識率は最大となることが分かった。 2)連結学習による音素単位PHMMの学習: 連続単語認識を行う場合,サブワード単位のモデルの組合せで文を認識する必要がある。このとき,サブワード列の転記だけが与えられている学習データを用いて,サブワード単位の確率モデルを学習する(連結学習という)必要があるが,PHMMについてこの方式はまだ実現されていなかった。そこで,本年度においては,PHMMの連結学習のプログラムを作り,これを用いて音素単位PHMMを作った。 3)音素単位PHMMの連結による単語モデルの構成と単語音声認識実験: 2で作った音素単位PHMMを連結して単語モデルを作り,孤立発声の単語認識実験を行った。従来の結果は,孤立発声の単語音声データを学習データとして単語単位のPHMMを学習し,孤立発声の単語認識実験を行ったものであった。音素単位の連結によっても,PHMMは従来と同様に高い性能を与えることが確認できた。 4)PHMMを用いた連続音声認識: PHMMをベースとした,連続音声認識システムを作成した。
|
-
[Publications] 古山純子,小林哲則: "部分隠れマルコフモデルによる単語音声認識"電子情報通信学会論文誌DII. Vol.J83-D-II,No.11. 2379-2387 (2000)
-
[Publications] 益満健,小林哲則: "部分隠れマルコフモデルとそのジェスチャ認識への応用"情報処理学会論文誌. Vol.41,No.11. 3060-3069 (2000)
-
[Publications] 小川哲司,小林哲則: "音素単位の部分隠れマルコフモデルにおける状態・出力依存関係の一般化"日本音響学会秋季研究発表会講演論文集. 1-5-10. 19-20 (2000)