高精度音声認識手法による音声の超極低ビットテキストファイル化・知的符号化合成方式

研究課題

研究課題/領域番号	63550272
研究種目	一般研究(C)
配分区分	補助金
研究分野	情報工学
研究機関	豊橋技術科学大学
研究代表者	中川聖一豊橋技術科学大学, 工学部, 助教授 (20115893)
研究分担者	山本幹雄豊橋技術科学大学, 工学部, 教務職員 (40210562)
研究期間 (年度)	1988
研究課題ステータス	完了 (1988年度)
配分額 *注記	2,300千円 (直接経費: 2,300千円) 1988年度: 2,300千円 (直接経費: 2,300千円)
キーワード	音声符号化 / 分析合成方式 / 超極低ビット符号化 / 認識ボコーダ / 音声認識
研究概要	音声の極低ビット符号化・合成方式として、ベクトル量子化手法をセグメント単位に拡張したセグメント量子化(マトリックス量子化)法が提案され、150〜200bit/sの極低ビット符号化で、明瞭度の優れた合成音が得られている。更に低符号化を実現するには言語に依存した符号化法を導入する必要があった。本研究では、昨年度開発した情報源の内容まで立ち入った音声の超極低ビット符号化法、いわゆる知的符号化・認識符号化(認識ボコーダ)に関して改善を図った。まず初めに、入力音声波を音声分析し、10msごとにPARCOR係数、ピッチ周波数、パワーを抽出する。これらの特徴パラメータの時系列とあらかじめ作成されている約5.00個の音節標準パターン(同様な特徴パラメータ時系列)と照合し、最適な音節系列に変換する。音節符号化のために9ビット、ピッチ、パワー、継続時間長はそれぞれ7レベル、5レベル、3レベルで表現し、合計105通り(7ビット)で表現する(約100ビット/秒)。合成時には、これらの符号化手続きの逆手順で達成する。つまり、対応する音節標準パターンの原波形をピッチ、パワー、継続時間長に従って線形に補間しながら接続し、合成する。本方式の評価として、【○!1】音節単位のセグメンテーションが完全にできる理想的な場合、【○!2】韻律情報(ピッチパターン)の有用性の検討を行なった。また、本方式の実用的観点から、符号化音声から標準的な話者の音声による復号化法についても検討した。本方式の音声了解度は、音節認識精度に大きく依存する。そのための改善策として、隠れマルコフモデルによるセグメンテーション法と音節認識法を開発した。