1996 Fiscal Year Annual Research Report
音声言語と図像の統合によるマルチモーダルコミニュケーション方式の研究
Project/Area Number |
08458078
|
Research Category |
Grant-in-Aid for Scientific Research (B)
|
Research Institution | Kyoto University |
Principal Investigator |
堂下 修司 京都大学, 工学研究科, 教授 (00025925)
|
Co-Investigator(Kenkyū-buntansha) |
荒木 雅弘 京都大学, 工学研究科, 助手 (50252490)
河原 達也 京都大学, 工学研究科, 助教授 (00234104)
|
Keywords | マルチモーダルコミュニケーション / 対話 / 音声認識 / ジェスチャ / 作図システム / 情報統合 |
Research Abstract |
本研究では、音声言語入力による作図システムの実現を通じて、人と機械とのマルチモーダルコミュニケーションを実現することを目標とする。本年度は、以下にあげるような研究成果を得た。 1.マルチモーダル情報の結合方式のモデル化 人は伝達する情報の性質に応じてモードを選択していると考えられる.伝達する情報の性質には実に様々なものがあるが,時間的/空間的,理論的/感性的の2つの軸によって(1)言語的情報、(2)図像的情報、(3)音楽的情報、(4)絵画的情報に分類できる。また、情報伝達に利用するモードは、音声、ジェスチャ・キーボード・表情・視線などがある。これらの分類により、情報の性質の異なるものを適したモード(ただし重複しない)で伝達されたときに最も効率的な情報伝達が行われたといえる。そして、このようなマルチモーダル情報の結合においては、時間的に非同期に入力される情報の同期と、意味的整合性を利用した各モードの曖昧性解消が必要であることがわかった。 2.マルチモーダル情報解析部の実現 音声言語と、作図位置などを指示するための指示ジェスチャを入力するインターフェースにおいて、(1)対応する指示ジェスチャと音声認識中の自立語の出現の時間的ずれおよび(2)対応する指示ジェスチャと図像要素との位置的なずれの2つの要素によって各モード間の対応づけの確からしさを評価し,最も高い対応スコアの仮説を選択する方法を実現した。これによって「ここに四角を書いてください」というようなマルチモーダル入力が解析できる。 3.マルチモーダル作図システムの試作 上記入力部と、Tcl/Tkによって実現した作図部とを結合して、対話型マルチモーダル作図システムを試作した。 現在、作図システムは簡単な部品を組み合わせて図を書くだけの機能しかないが、今後は「フローチャートが書きたい」「ブロック図が書きたい」など、ユーザの目的から出発するトップダウンによる作図機能などを組み込んでゆく予定である。
|
Research Products
(4 results)
-
[Publications] Doshita,S.: "UNDERSTANDING AND GENERATING DIALOGUE BY INTEGRATING PRO-CESSING OF SPEECH,LANGUAE AND CONCEPT" Proc.of International Symposium on Spoken Dialogue '96. 1-8 (1996)
-
[Publications] 堂下修司: "音声・言語・概念の統合的処理による対話の理解と生成" 人工知能学会誌. Vol.12,No.1. 3-12 (1997)
-
[Publications] 荒木雅弘: "音声・ジェスチャ・図像を統合したマルチモーダル情報の理解" 人工知能学会研究会資料. SLUD-9603. 13-18 (1997)
-
[Publications] 荒木雅弘: "図像情報を利用した講演調音声のディクテーション" 第53回情報処理学会全国大会講演論文集. 357-358 (1996)