本研究では、発話内容や状況に合った、人間らしい話し方ができる音声対話システムを実現するため、(1)自発的な対話音声を収集し、音声対話において重要なパラ言語情報を付与した大規模なコーパスを構築すること、および(2)収集した音声に対してイントネーション・持続時間長・フォルマントなどの音響分析を行い、それらの音響的特徴と言語情報・パラ言語情報・談話情報との関係をモデル化すること、を目的とする。 本年度は、(a)自発的な対話音声データを数多く収録し、同時に音響分析を行ってコーパスを作成すること、(b)収録した音声の書き起こし作業を行い、さらに談話タグを付与すること、を当初計画としていた。 当初計画の(a)については、同一話者による多数回の録音を含め、12セッション分を新たに収録した。音響分析については、自然な対話音声に対して当初計画していたARX法に基づく音声分析法における初期パラメータの設定が容易ではないため、本年度はその解明に注力することとし、音響分析は次年度の課題とした。(b)については、新たに収録した音声を含め、全ての音声の書き起こしデータを作成した。また、一部のセッションに談話タグを付与するとともに、談話タグとパラ言語情報の付与作業との関係について予備的な検討を行った。 以上の実績に加え、本年度では、音響パラメータとパラ言語情報の知覚との関係について、自然な対話音声の音響パラメータ操作による知覚実験、および音声波形からのパラ言語情報の認識について検討を行った。
|