配分額 *注記 |
9,200千円 (直接経費: 9,200千円)
2004年度: 2,100千円 (直接経費: 2,100千円)
2003年度: 4,000千円 (直接経費: 4,000千円)
2002年度: 3,100千円 (直接経費: 3,100千円)
|
研究概要 |
本研究は,電話(携帯電話およびIP電話を含む)での話者認識性能をマイク入力と同等,またはそれ以上に向上させることを目的とした研究である。従来の電話による話者認識と異なる点は,端末側で音響分析を行い,話者認識に有効なデータのみをセンター側に送り,センター側で照合を行う方式をとることにある。本研究により得られた知見および研究成果を以下に示す。 (1)同一の回線速度であっても,分析時の帯域幅を広げることで話者認識の精度が向上する。 (2)端末の周波数特性の差異をリアルタイムで等価する手法を開発した。同手法により,分散型音声認識用に欧州電気通信標準化機構(ETSI)が勧告した分散型音声認識(DSR)用フロントエンドで圧縮・量子化された特徴パラメータに対しても,高い認識精度を得ることが可能となった。 (3)圧縮・量子化された特徴量に頑健なノンパラメトリックモデルによる話者認識手法を開発した。上記の手法の組み合わせにより,ETSI DSRフロントエンドを用い回線速度4.8kbpsという条件で,マイク入力と同等の話者認識性能を達成した。一方で,従来の電話環境にも適用可能な手法として, (4)話者認識に有効な音素を明らかにすると共に,端末からサーバーに送る音素を減らすことにより,低ビットレートで高い認識精度を達成可能な話者認識手法を開発した。 (5)音響モデルから音声波形を生成し対象環境で再生録音することで任意の環境に適応可能な音響モデル適応手法を開発した。 (6)音声途切れに頑健な音声認識手法とHMM音声合成法を組み合わせることで,パケットロスによる音声欠落を復元する手法を開発した。 また,話者認識における,長期的および短期的な発声の揺らぎを分析するために,平成15年12月より男女各2名の音声を,1週間毎に朝,昼,夕の1日3回,15分程度,防音室で発声した音声を収集し,データベース化を進めている。
|