研究概要 |
音声と手書き文字を同時に入力する「話しながら書く」、「書きながら話す」インタフェースの実現を目的とした研究を行った。マルチモーダル認識では、モード毎の入力を認識処理前あるいは認識処理後に統合する方式が一般的であるが、ここでは入力と同期した認識サーチ処理の段階で両者を統合する方式を提案した。両者が補完しあうことで、周囲雑音が大きい場合でも頑健な認識が期待される。一方、音声と手書き文字とでは同一内容の入力速度が著しく異なることが課題となった。そこで、ここでは、手書き文字で入力する情報を選別し、探索空間を効果的に絞り込むことを狙った。 本年度は、第一段階として、連続音声とそれに対応する各文節の先頭文字(ひらがな)とが同時に入力される形態について、シミュレーションを行った。まず、音声と手書き文字とが独立に収録されたデータから同時入力データを合成した。次に、それを入力とし、まず音声認識を行って認識結果候補の単語グラフを出力し、次に、手書き文字の認識結果を統合してその単語グラフを探索する2パス処理を行った。認識スコアとしては、音声と手書き文字のそれぞれの対数尤度の重み付け和を用いた。各ひらがなは文節の発声開始と同時に入力が開始されると仮定している。音声認識、手書き文字認ともに隠れマルコフモデルを用い、認識単位として音声認識ではtriphone,手書き文字ではストロークを用いた。音声認識のみの認識率が76%のところ、手書き文字の併用で79%まで認識性能が向上し、提案手法の実現可能性が示された。 来年度は、まず、同時入力の収録システムを開発し、同時入力データベースを構築する。そして、1パスで実時間処理を行うサーチ手法の検討、音声と手書き文字入力の同期のずれに対する対処、使いやすいインタフェースの実現のための入力手書き文字の選別などを行う予定である。
|