2008 Fiscal Year Annual Research Report
Project/Area Number |
07J10096
|
Research Institution | Tokyo Institute of Technology |
Principal Investigator |
中村 匡伸 Tokyo Institute of Technology, 大学院・情報理工学研究科, 特別研究員(DC2)
|
Keywords | 話し言葉音声 / ケプストラム空間 / 発声の怠け / 認識誤り原因の同定 / ケプストラム空間拡張法 |
Research Abstract |
近年の音声認識技術では,新聞記事やニュース原稿などの「書き言葉」を読み上げた音声に対しては95%以上の認識性能が得られるのに対し,我々の日常生活において通常用いられる「話し言葉」の音声では,その認識精度は極端に低下する.音声認識技術には,音声の自動書き起こしの他にもデジタルメディアの音声検索,自動インデキシング,キーワード抽出による自動要約などのように極めて多様な応用が考えられる.そのため,話し言葉の音声認識技術を向上させることは現実社会の利便性を高めるために必要不可欠である.報告者の先行研究として,話し言葉音声特有の特徴として知られている「発声の怠け」に注目し,複数の大規模コーパスを用いて,この特徴に関する統計的かつ定量的な分析を行い,話し言葉音声の認識性能低下に与える影響を明らかにした.この特徴により,読み上げ音声に対して話し言葉音声では全体的に音素ケプストラム空間の縮小が生じており,認識性能の低下を引き起こしていることが明らかになっている.今年度では,話し言葉音声における「発声の怠け」に対し,より局所的な視点から分析を行い,さらにこの特徴によって生じた認識性能低下への対策法を提案した.具体的には,話し言葉音声において認識誤りが生じた各単語に対して,認識誤り原因の同定法を用いることにより認識誤り単語を「音響的誤り単語」「言語的誤り単語」「検索誤り単語」に分類し,それぞれの出現頻度を比較した.その結果,「音響的誤り単語」の出現頻度が高くなっていることが明らかになった.「音響的誤り単語」とは,音声の音響的特徴量が変化することによりモデルとの不整合が生じた単語であり,当該単語においては局所的な「発声の怠け」が頻繁に生じていると考えられる.「音響的誤り単語」と正解単語に関して,各単語を構成する音素のケプストラム空間の大きさを比較したところ,正解単語に対して音響的誤り単語におけるケプストラム空間は小さくなっている傾向が見られた.この結果は,話し言葉音声において局所的な「発声の怠け」が頻繁に生じていることを定量的に示している.この現象に対する対策法として,「音響的誤り単語」に相当するケプストラム特徴量を拡大する「ケプストラム空間拡張法」を提案した.この手法を適用することにより,単語正解精度が絶対値で1.25%向上することを明らかにした.
|
Research Products
(1 results)