研究概要 |
本研究では、音声言語入力による作図システムの実現を通じて、人と機械とのマルチモーダルコミュニケーションを実現することを目標とする。本年度は、以下にあげるような研究成果を得た。 1.マルチモーダル情報の結合方式のモデル化 人は伝達する情報の性質に応じてモードを選択していると考えられる.伝達する情報の性質には実に様々なものがあるが,時間的/空間的,理論的/感性的の2つの軸によって(1)言語的情報、(2)図像的情報、(3)音楽的情報、(4)絵画的情報に分類できる。また、情報伝達に利用するモードは、音声、ジェスチャ・キーボード・表情・視線などがある。これらの分類により、情報の性質の異なるものを適したモード(ただし重複しない)で伝達されたときに最も効率的な情報伝達が行われたといえる。そして、このようなマルチモーダル情報の結合においては、時間的に非同期に入力される情報の同期と、意味的整合性を利用した各モードの曖昧性解消が必要であることがわかった。 2.マルチモーダル情報解析部の実現 音声言語と、作図位置などを指示するための指示ジェスチャを入力するインターフェースにおいて、(1)対応する指示ジェスチャと音声認識中の自立語の出現の時間的ずれおよび(2)対応する指示ジェスチャと図像要素との位置的なずれの2つの要素によって各モード間の対応づけの確からしさを評価し,最も高い対応スコアの仮説を選択する方法を実現した。これによって「ここに四角を書いてください」というようなマルチモーダル入力が解析できる。 3.マルチモーダル作図システムの試作 上記入力部と、Tcl/Tkによって実現した作図部とを結合して、対話型マルチモーダル作図システムを試作した。 現在、作図システムは簡単な部品を組み合わせて図を書くだけの機能しかないが、今後は「フローチャートが書きたい」「ブロック図が書きたい」など、ユーザの目的から出発するトップダウンによる作図機能などを組み込んでゆく予定である。
|