研究概要 |
本研究では,人間や計算機とのコミュニケーションにおける視覚情報と言語情報を,統合的に解析し,それを用いる手法について研究を行った.特に,プレゼンテーションにおける送り手順の意図,及びそれを認識するための種々の要因について調査を行い,それを自動的に特定するための基本的な手法を提案した. 1.プレゼンテーション映像における話者の動作認識に関する研究:プレゼンテーションを記録した映像から,人物の動作やジェスチャの解析を行い,視覚的イベントとして抽出する方法;言語情報を解析し,指示語や形状を表現する語など,視覚的イベントと密接に関連する言語現象を抽出する方法;時間スケール上でのタイミングを考慮して,両者を対応づけ,視覚的イベントの意味解釈を行う方法について研究し,新しい手法を提案した. 2.画像処理・音声処理を用いた映像データの時間的構造化に関する研究:大量に保存されている映像データを自動的に構造化し,検索や再利用可能なデータとして蓄積する基礎研究を行った.この研究では特に,短い時間にわかりやすい主張が込められているコマーシャル映像を題材にし,その意味的な構造化手法を提案した. 3.図的情報(パターン情報)と自然言語情報の統合によるメディア理解と説明の生成:これまでただ単に混在して提示されることの多かった図的メディアとテキストのような自然言語情報を自動的に関係付けるための研究を行った.これにより,双方のメディアの持つ情報を相補的に用い,片方のメディアでは解釈の難しい事項を簡単に処理できることを明らかにした.また,その結果から自動的にハイパーメディアを構築する手法を提案した. 4.関連研究(新しいコミュニケーション手段を構築するための基礎的研究) :従来から,種々のコミュニケーションで必要となる顔画像の扱いについて,簡便かつ十分な質を持った画像を生成する方法を提案した.
|