研究概要 |
一般に,ウェブブラウザを操作する場合,マウスなどによって操作可能なGraphical User Interface(GUI)が用いられる.しかし近年,携帯端末やPDA(携帯情報端末機器)など,マウスなどが不向きな環境からをアクセス可能となっている.ここでは,従来から検討されている音声操作インタフェースに加え,任意文字列の入力を可能にした音声入力インタフェースが有用になる.そこで,情報検索におけるWWWブラウザのフォーム入力に対し任意文字列の入力を行うための音声インタフェースについて検討した. 自由な音節系列を認識するために,One-pass Viterbi法により連続音節認識を行う.日本語の文字列を入力対象とする場合,何の制約もなく自由に音節の接続を許す必要はなく,例えばHTMLを詳細に解析し,認識対象が絞り込める場合(例えば氏名入力であることがわかる場合),その情報を言語モデルとして用いることも考えられる.これを仮定して,まず氏名の情報をbigram言語モデルとして導入した.その結果,用いない場合の75.1%から78.3%に音節認識率が向上した.しかし,音節系列すべてが正しく認識できる率は認識結果の上位5位までをみても34.8%と不十分な結果であった. そこで,系列の認識結果の上位N位から,音節ごとに5-bestりストを作成してユーザに提示し,ユーザに,ペンタッチなどによって選択させる,音節選択インタフェースを構築した。これは,あるフォームの入力の際に別のウィンドウが開き,ユーザに音声入力をさせ,その認識結果から作成した音節毎の5-bestリストを表示してユーザに選択させるものである.これにより,音声入力と簡単なペンによる選択によって、入力可能となる率は71.2%となった.
|