研究概要 |
話し言葉(音声言語)を用いたヒューマンインタフェースは,親しみやすく使いやすい計算機システムの実現を可能にする。人と計算機の高度な対話を実現するためには,人が文を発話中に,システムが意味の解釈を随時行い,返答やあいづちを行ったり,適切な反応や処理を行うことが望ましい。本研究は,そのような音声言語を発話と同時に理解するマルチモーダルインタフェースの要素技術の確立,およびその実現を目的とし,以下の項目について研究を実施している。 (1) 発話同時理解のための連続音声認識技術: 従来の音声認識技術は,1文単位の文法情報や単語の接続確率を用いて認識率の向上させてきたが,本研究では文法情報を用いずに,連続音声から可能なかぎり単語単位で認識を行う技術を確立する。 (2) 自然言語の漸,進的な意味解釈手法: 従来の自然言語処理手法は文単位で意味を求めていたが,本研究では,発話の途中であっても入力文の意味をできる限り解釈する手法を確立する。また,意味情報を用いた音声認識率向上を目指す。 (3) 複数モダリティの同期手法: 発話の途中でもユーザの操作に対し適切に反応するため,音声入力による言語情報と,マウスボインティングやジェスチャ等の他の入力情報との同期手法を確立する。 初年度にあたる本年度は、特に(2),(3)についての研究成果を得た。意味解釈手法としては、タスクを特定のドメインに限定したドメイン依存の手法を開発し、プロトタイプシステムを実現した。Sync/Drawは作図タスクを対象とした図形エディタであり、線分や円等の作図を話し言葉とポインティングデバイスにより可能にするシステムである。話し言葉入力を単語単位で即座にオブジェクトと呼ばれる図形操作の意味表現へと変換し、画面に反映することにより、本システムは話し言葉に対する発話同時理解を実現している。Sync/Mailはメールの検索や閲覧、発信等を話し言葉とポインティングデバイスにより行うメールツールである。メール処理の最小単位に対応する言語を定め、話し言葉を漸進的に変換することにより、発話と同時にメールの検索を可能にした。o複数モダリティの同期のためには、従来の文法的手法を用いず、タスクに依存した同期手法を開発した。タスク依存解析とタスク独立解析を同時に実行し、もっとも多くの情報を保持するものを用いることにより、タスクに依存したモダリテイの同期が可能になる。
|