高精度音声認識手法による音声の超極低ビットテキストファイル化・知的符号化合成方式

Research Project

Project/Area Number	63550272
Research Category	Grant-in-Aid for General Scientific Research (C)
Allocation Type	Single-year Grants
Research Field	計算機工学
Research Institution	Toyohashi University of Technology
Principal Investigator	中川聖一豊橋技術科学大学, 工学部, 助教授 (20115893)
Co-Investigator(Kenkyū-buntansha)	山本幹雄豊橋技術科学大学, 工学部, 教務職員 (40210562)
Project Period (FY)	1988
Project Status	Completed (Fiscal Year 1988)
Budget Amount *help	¥2,300,000 (Direct Cost: ¥2,300,000) Fiscal Year 1988: ¥2,300,000 (Direct Cost: ¥2,300,000)
Keywords	音声符号化 / 分析合成方式 / 超極低ビット符号化 / 認識ボコーダ / 音声認識
Research Abstract	音声の極低ビット符号化・合成方式として、ベクトル量子化手法をセグメント単位に拡張したセグメント量子化(マトリックス量子化)法が提案され、150〜200bit/sの極低ビット符号化で、明瞭度の優れた合成音が得られている。更に低符号化を実現するには言語に依存した符号化法を導入する必要があった。本研究では、昨年度開発した情報源の内容まで立ち入った音声の超極低ビット符号化法、いわゆる知的符号化・認識符号化(認識ボコーダ)に関して改善を図った。まず初めに、入力音声波を音声分析し、10msごとにPARCOR係数、ピッチ周波数、パワーを抽出する。これらの特徴パラメータの時系列とあらかじめ作成されている約5.00個の音節標準パターン(同様な特徴パラメータ時系列)と照合し、最適な音節系列に変換する。音節符号化のために9ビット、ピッチ、パワー、継続時間長はそれぞれ7レベル、5レベル、3レベルで表現し、合計105通り(7ビット)で表現する(約100ビット/秒)。合成時には、これらの符号化手続きの逆手順で達成する。つまり、対応する音節標準パターンの原波形をピッチ、パワー、継続時間長に従って線形に補間しながら接続し、合成する。本方式の評価として、【○!1】音節単位のセグメンテーションが完全にできる理想的な場合、【○!2】韻律情報(ピッチパターン)の有用性の検討を行なった。また、本方式の実用的観点から、符号化音声から標準的な話者の音声による復号化法についても検討した。本方式の音声了解度は、音節認識精度に大きく依存する。そのための改善策として、隠れマルコフモデルによるセグメンテーション法と音節認識法を開発した。