2001 Fiscal Year Annual Research Report
フォーム型Web情報サービス享受のためのマルチモーダル対話インタフェースの研究
Project/Area Number |
13224049
|
Research Institution | Toyohashi University of Technology |
Principal Investigator |
北岡 教英 豊橋技術科学大学, 工学部, 助手 (10333501)
|
Co-Investigator(Kenkyū-buntansha) |
小林 聡 豊橋技術科学大学, 工学部, 助手 (90314096)
宇津呂 武仁 豊橋技術科学大学, 工学部, 講師 (90263433)
中川 聖一 豊橋技術科学大学, 工学部, 教授 (20115893)
|
Keywords | 対話インターフェース / マルチモーダル / 音声認識 / Web情報 / WWWブラウザ / 任意文字列 |
Research Abstract |
一般に,ウェブブラウザを操作する場合,マウスなどによって操作可能なGraphical User Interface(GUI)が用いられる.しかし近年,携帯端末やPDA(携帯情報端末機器)など,マウスなどが不向きな環境からをアクセス可能となっている.ここでは,従来から検討されている音声操作インタフェースに加え,任意文字列の入力を可能にした音声入力インタフェースが有用になる.そこで,情報検索におけるWWWブラウザのフォーム入力に対し任意文字列の入力を行うための音声インタフェースについて検討した. 自由な音節系列を認識するために,One-pass Viterbi法により連続音節認識を行う.日本語の文字列を入力対象とする場合,何の制約もなく自由に音節の接続を許す必要はなく,例えばHTMLを詳細に解析し,認識対象が絞り込める場合(例えば氏名入力であることがわかる場合),その情報を言語モデルとして用いることも考えられる.これを仮定して,まず氏名の情報をbigram言語モデルとして導入した.その結果,用いない場合の75.1%から78.3%に音節認識率が向上した.しかし,音節系列すべてが正しく認識できる率は認識結果の上位5位までをみても34.8%と不十分な結果であった. そこで,系列の認識結果の上位N位から,音節ごとに5-bestりストを作成してユーザに提示し,ユーザに,ペンタッチなどによって選択させる,音節選択インタフェースを構築した。これは,あるフォームの入力の際に別のウィンドウが開き,ユーザに音声入力をさせ,その認識結果から作成した音節毎の5-bestリストを表示してユーザに選択させるものである.これにより,音声入力と簡単なペンによる選択によって、入力可能となる率は71.2%となった.
|
Research Products
(1 results)