本研究の目的は、人間の対面コミュニケーションにおける会話調整過程を、言語情報のみならず、姿勢・身振り・表情などの非言語情報も考慮して、総合的に分析しモデル化することである。本年度は、マルチモーダル会話の収録と収録したデータにもとづく分析を行った。 1.マルチモーダル会話の収録 a)頭部・上体運動を記録した対話データ:頭部・上体動作の詳細な分析のために、モーションキャプチャ装置を備えた実験室で収録を行った。全12会話(約1時間40分)からなり、それぞれ被験者の正面・右側面映像、会話相手の正面映像、全景映像、転記テキスト、および当該区間の6つの磁気センサーのxyz座標値と方向角のデータを含む。 b)多人数会話データ:より日常に近い環境での収録のため、騒音の少ないラウンジに、収録機器を持ち込んで3人会話の収録を行った。コーパスは全36会話(約5時間40分)からなり、それぞれ各被験者の正面映像、全景映像、3チャンネル音声、および転記テキストを含む。 2.3人会話における視線構造の分析:3人会話における参与者たちの視線行動と参与役割との関連を分析した。各参与者がどこを見ているかを1フレームごとに記述し、発話終了付近での分布を調べたところ、話し手との視線交差が次話者になるための重要な要因であることがわかった。同時に、次話者にならない聞き手は自ら視線交差を避けることで、次話者になるのを辞退していることが示唆された。 3.頭部動作の言語学的分析:会話中の頭部動作に着目し、運動学的な特徴にもとづいて、基本要素を分類するという試みを行った。モーションキャプチャによって記録された運動データから頭部動作の特徴パラメータを抽出し、クラスター分析によって分類した。得られたクラスターの一部は直観的に感じる範疇とよく対応していたが、全般的にはあまり良好でなく、測定方法やデータ処理に問題があることが示唆された。
|