2004 Fiscal Year Annual Research Report
携帯機器向けの手書き文字の準同期入力を併用した音声認識手法の研究
Project/Area Number |
15300054
|
Research Institution | Tokyo Institute of Technology |
Principal Investigator |
篠田 浩一 東京工業大学, 大学院・情報理工学研究科, 助教授 (10343097)
|
Co-Investigator(Kenkyū-buntansha) |
古井 貞煕 東京工業大学, 大学院・情報理工学研究科, 教授 (90293076)
|
Keywords | 音声認識 / マルチモーダルインタフェース / 手書き文字認識 / サーチアルゴリズム / マン-マシンインタフェース / 情報携帯端末 / 隠れマルコフモデル |
Research Abstract |
携帯情報機器における使いやすい入力インタフェースが求められている。本研究では、「書きながら話す、話しながら書く入力インタフェース」の実現のため、特に携帯情報機器へのメール文などの自由文入力を想定し、音声入力と手書き文字入力との同時入力を統合して認識する手法を確立することを目的とする。昨年度は、そのためのアルゴリズムを考案し、音声と手書き文字とを別々に収録したデータベースを用いて、その実現可能性を確認した。 本年度は、まず、手書きタブレット、PC、マイクロフォンなどの録音機材を用いて音声と文字の同時入力を収録するシステムを構築した。Windows OS上で動作する。次に20人程度の被験者を集め、文節単位に手書き文字を入力する形態において、音声および手書き文字を収録した。このデータベースを用いて、認識性能の評価を行った。手書き文字入力を併用した場合の効果は、被験者により異なり、効果のある被験者がいる一方で、かえって性能が劣化する被験者も存在することがわかった。その原因として、手書き文字と音声の入力タイミングにずれ(同期のずれ)が存在し、そのずれの分散の大きい場合に性能が劣化することが判明した。同期のずれに対し確率分布を与えるなど、同期のずれに頑健なアルゴリズムを構築することで性能の向上が期待できる。 今後の課題として、インターフェースとしての使いやすさの評価、他の入力形態の検討、および、実時間で動作するシステムの実装があげられる。
|
Research Products
(1 results)