本研究の目的は、システムとユーザが自由なタイミングで発話できるような音声対話システムの実現を目指して、このような目的にふさわしい日本語自然発話の文の構造の定式化と音声言語理解・産出のメカニズムを考えることである。基本的なアイデアは、発話文を命題内容を担う部分とインタラクション機能を担う部分に分け、発話冒頭・末尾に音声・言語処理の負荷の軽い後者を配置することで実時間処理を実現し、インタラクションをスムーズにしようというものである。 本年度は、人間同士の音声対話のデータを分析し、発話冒頭におけるインタラクション要素を同定した。とくに、「ちー、千葉で会いましょう」に見られるような発話冒頭の語の繰り返しに着目し、その音声的特徴を分析した。得られた知見は以下のとおりである。 1.第1要素(「ちー」)の直前・直後の休止は、第2要素(「千葉」)の直後の休止よりも頻度が高い。 2.第1要素(「ちー」)は第2要素(「千葉」)よりもゆっくりと発声される。 これらの特徴は、「あのー」「えーと」などのフィラーと共通するものであり、発話冒頭の語の繰り返しが、フィラーと同様に、発話内容が完全に定まらないうちに場つなぎ的な機能を果たすべくして、産出されていることがわかった。 このようなインタラクション要素を発話冒頭に配置することにより、話者交代のタイムラグを作ることなく、発話の命題内容の形成のための時間をかせぐことができる。次年度は、このようなメカニズムの音声対話システムでの実現を目指して、人間の自然発話産出のメカニズムをより詳細に検討していく。
|