音声・言語現象の個人性モデルに基づく対話音声理解システムの開発
Project/Area Number |
14780272
|
Research Category |
Grant-in-Aid for Young Scientists (B)
|
Allocation Type | Single-year Grants |
Research Field |
Intelligent informatics
|
Research Institution | Shizuoka University |
Principal Investigator |
甲斐 充彦 静岡大学, 工学部, 助教授 (60283496)
|
Project Period (FY) |
2002 – 2004
|
Project Status |
Completed (Fiscal Year 2004)
|
Budget Amount *help |
¥3,000,000 (Direct Cost: ¥3,000,000)
Fiscal Year 2004: ¥800,000 (Direct Cost: ¥800,000)
Fiscal Year 2003: ¥1,000,000 (Direct Cost: ¥1,000,000)
Fiscal Year 2002: ¥1,200,000 (Direct Cost: ¥1,200,000)
|
Keywords | 音声認識 / 対話音声 / 訂正発話 / 韻律特徴 / 発話様式 / 個人性 / 対話音声認識 / 定型表現 / スポッティング / フィラー / 決定木 / 音声認識エンジン / XML / XSLT / ポーズ単位 |
Research Abstract |
本年度は、対話音声において音響韻律的な現象に注目した対話音声処理に関する研究を行い、下記の研究成果を得た。 1.対話音声の個人性の扱い 前年度に引き続いて、発話様式の変動や個人性の違いによる対話音声認識性能の低下の問題に対して、繰り返しの訂正発話の検出法に焦点を当てた。本年度は新たに、音響・韻律的特徴の併用やモデル化に注目して、訂正発話の同定精度の改善を検討した。一つのアプローチとして、従来は2発話間の音響的特徴の類似性のみに注目していた繰り返し発話検出において、対数化基本周波数とその時間変化特徴を併用したパターンマッチングに基づくスポッティング法の適用を試み、従来法と比較して検出性能を4%ほど改善した。結果として80%程度の検出性能が得られた。 2.発話様式と個人性の違いの定量化 音声・言語現象のモデル化において、一般的な音響的な特徴表現での音声の個人性及び発話様式の違いの影響を明らかにするため、複数回の訂正入力を想定して発話様式の異なる発話を複数名の被験者で収録した。キーワード入力タスクを設定して、普通に発話してもらう場合と、訂正のために誇張して発話する場合とで複数の発話様式で発声してもらい、同一キーワードの発話様式の違いや個人差の影響の大きさと音響特徴空間での統計的な距離尺度との関係を分析した。分析において、母音間のBhattacharyya距離に基づく音韻構造間の距離との関係を分析した結果、個人間の差異や発話様式間での差異および、標準音響モデルと各個人・各発話様式との差異において、音韻構造間の距離に基づいて定量化された指標が発話様式や認識精度の違いに対してより相関が高い指標となることが示された。
|
Report
(3 results)
Research Products
(1 results)