研究課題/領域番号 |
25330210
|
研究機関 | 名古屋大学 |
研究代表者 |
西田 昌史 名古屋大学, 未来社会創造機構, 特任准教授 (80361442)
|
研究分担者 |
山本 誠一 同志社大学, 理工学部, 教授 (20374100)
|
研究期間 (年度) |
2013-04-01 – 2016-03-31
|
キーワード | 多人数会話 / 講演音声 / 発話形式 / 話者認識 |
研究実績の概要 |
本研究では、講演音声を対象に発話形式の違いが話者認識に与える影響を分析し、発話形式に頑健な話者認識手法について検討を行った。日本語話し言葉コーパスの学会講演と模擬講演を対象に分析を行った結果、模擬講演は話者内分散が小さく話者間分散が大きいため認識率が高く、学会講演は話者内分散が大きく話者間分散が小さいため認識率が低い傾向があり、発話形式の違いが話者認識に影響を与えることが明らかになった。これらの結果を踏まえて、学会講演と模擬講演からなる多人数の音声データで学習したUniversal Background Model(UBM)の学習データに対して判別分析を行うことで、発話形式の違いを考慮した特徴空間を構成する手法を提案した。学会講演と模擬講演合わせて200名による話者認識実験を行った結果、従来のUBM-MAP手法では学会講演にて79.7%、模擬講演にて94.3%、提案手法では学会講演にて81.3%、模擬講演にて94.8%の認識率が得られ、いずれの講演音声に対しても認識精度の改善が得られた。したがって、提案手法により講演の発話形式を考慮した話者認識を実現することができた。 また、収録した多人数会話データに対して、音声や視線の動きなどの会話動作情報のタグ付けを行った。聞き手が話し手を見ている割合に着目して分析を行った結果、自由な会話と課題を達成するための目的会話においてどちらも話し手を見ている割合に違いがないことが明らかになった。また、会話中の沈黙の時間が自由会話に比べて目的会話の方が長いことが明らかになった。これらの結果を踏まえて、会話形式が異なる場合に音響情報のみならず沈黙などの発話動作を話者交替の検出時に考慮することの有効性を検討する必要があると考えられる。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
多人数会話における話題内容や発話形式の違いが話者認識にどのような影響を与えるかを分析し、発話形式に頑健な話者認識手法について検討することが目的であり、発話形式の違いが話者認識に影響を与えることを明らかにした。また、分析結果を踏まえて提案した手法により認識精度の改善を得ることができた。
|
今後の研究の推進方策 |
これまでの話者認識実験や会話データの分析により、明らかになったことや検討した手法を生かすことで、話者交替の検出や話者分類技術の開発を進めていく。
|