携帯情報機器における使いやすく、かつ、頑健な入力インターフェースが求められている。本研究課題では、「書きながら話す、話しながら書く、入力インターフェース」の実現を目指した。音声入力のみより周囲雑音に対し頑健で、手書き文字入力のみより高速な入力が可能となることが期待できる。そのために、本研究課題の研究期間内では、特にメール文などの自由文入力を想定し、音声入力と手書き文字入力との同時入力を統合して認識する手法を開発した。 初年度は、速度の異なる2入力を用いた、使いやすく、かつ、それぞれの単独入力よりも高性能が期待できる形態として、文節の先頭ひらがな文字を手書き文字で入力するインターフェースを提案した。また、そのためのオンライン手書き文字入力方式を実装した。そして、同時入力に対する認識アルゴリズムを考案し、音声と手書き文字とを別々に収録したデータベースを用いてシミュレーション実験を行い、その有効性を確認した。 最終年度は、提案したインターフェースを実装した収録システムを構築し、被験者10名の計530文のデータを収録し、認識性能評価を行った。探索方式は、まず、音声のみを用いた認識で認識結果候補を単語グラフの形で出力し、次に、音声スコアと手書き文字スコアを同時に用いてグラフ探索を行う2パス処理を用いた。あわせて音声と手書き文字の入力のずれに対し適応する方式も採用した。音声のみの認識結果に比べ、話者平均で5%程度認識性能が向上し、提案手法の効果を確認した。 今後は、音声と手書き文字の間の重みの自動最適化などのアルゴリズム改良を行い、実時間で動作するシステムを実装する。また、インターフェースとしての使いやすさの評価、他の入力形態の検討を行う。さらに本手法は雑音下で特に有用と考えられるため、実環境下での評価も行いたい。
|