研究概要 |
音声には,言葉の系列として表現される言語情報と,発話スタイル(言い方の違い)によって表現される意図・態度・感情などのパラ言語情報が含まれる.これまでのパラ言語情報の抽出に関する多くの研究は,韻律特徴を重視して来たが,自然発話音声では,気息性や非周期性などを含んだ声質が現れやすく,韻律情報以外に,より高度な音声理解を求めるためには声質情報を考慮することが重要となる.本研究ではさまざまなパラ言語情報を抽出することを目標とし,韻律と声質の特徴を考慮した発話スタイルの検出機構の構築を行っている.また,実環境への応用の問題点を解決するために,マイクと話者が離れた状況でも発話スタイルが正しく検出される機構の実現を目指している. 本研究の初年度では,主に韻律と声質の音響特徴に着目し、さまざまな話者がさまざまな発話スタイルで発声された発話の音響分析を行った。声質に関しては、声帯の振動を測定するためのEGG(Electro-GIottograph)装置を使用して、音声と同期した声帯振動のデータを収集した。 さまざまな声質の中でも、日本語の会話音声において、強い感情や態度の表現に伴って生じる「りきみ」発声に着目した。音声とEGG信号の分析の結果、「りきみ」発声における音響特徴を明らかにし、声質の分類に通常使用されているスペクトル傾斜や周期性を定量化するパラメータでは、特に鼻音化された母音や声帯振動にダブルビートが生じる場合に、識別が不完全だということを示した。また、EGG波形の詳細な分析により、りきみ発声では他の声質に比べて、声門の完全な閉鎖区間の割合が(不完全な開閉も含めた)開放区間よりも大きいことが示された。
|