研究概要 |
本研究では,討論などの議事録に話者の発話状態を付与するため,音声から音響特徴を抽出し分析することで,話者の発話状態をモデル化し推定することを目的としている. これまでの研究では,日本語地図課題対話コーパスを対象として話者4名の40発話を用いて,6つの発話状態と4つの韻律特徴の全体の相関関係を正準相関分析により明らかにした.これを踏まえて,今回はさらにデータ量ならびに韻律特徴を増やして重回帰分析に基づき各発話状態のモデル化と推定について検討を行った. データとしては話者10名の130発話を用い,今回「強調」「疑問」「驚き」「自信」「迷い」の5つの発話状態に対して被験者12名によりSD法に基づいて7段階で評定実験を行った.各音声データごとに平均の評定値が一定値以上であればその発話状態があるとみなした.また,韻律特徴としては「F0の平均値・レンジ・最大値・最小値」「パワーの平均値・レンジ・最大値・最小値」「平均モーラ長」の9つを用いており,話者ごとにパラメータを正規化している. 以上の評定実験で得られた評定値を目的変数,韻律特徴を説明変数として重回帰分析によりモデル化を行った.変数選択により,「強調」は「F0レンジ・最小値」「パワー平均値・最大値」,「疑問」は「F0平均値・レンジ」「パワーレンジ・最大値」,「驚き」は「F0レンジ・最大値・最小値」「パワーレンジ」「平均モーラ長」などのように韻律特徴により各発話状態をモデル化することができた.この重回帰モデルにより発話状態の推定を行った.その結果,各発話状態がある場合の判別制度が64%,各発話状態がない場合の判別制度が93%となり全体で80%の判別制度が得られた.また,重回帰モデルの推定値と人間の評定値との相関を分析した結果,平均して0.74の相関値が得られ今回のモデルが人間の印象を反映できていることがわかった.
|