本年度の研究は、実験用音声データの収集、整理ならびにデータベース構築と、研究の中心となる音素認識と知的意味情報利用のための構文解析規則の作成研究の2系列に分けられる。 1)実験用音声データベースの構築 音素認識実験のために今までに蓄積した多数話者単語音声データの大容量光ディスクへの書込みが終了した。ディスクへは、単語の種類別に、単語番号、発声者番号によって検索できるように記録してある。光ディスクは、1.8GByte2面、1.4GByte6面である。 その他に、文章朗読音声の収録を進めている。 単語、文章共に、ただディジタル記録しただけでは研究に使うことができず、音素毎に区切っての音素のラベリングを行わなければならない。従来はそれを手作業でしていたが、それでは現有の音声データだけでも10年以上の年月を要するので、自動ラベリングシステムをい実現すべく研究を進めている。自動ラベリングシステムによる作業は、昭和61年度早々に開始できる予定である。 2)音素認識の研究 人間の音素認識の方法を模擬する2つの方法を進めている。その1はセグメント特徴の利用であり、音声波を直接音素に変換せず、音響的な特徴に重点をおくセグメント特徴を介して音素記号系列に変換しようという方法である。その2は、スペクトルの周波数軸上のローカルピークと、各帯域パワーの時間変化の差分の利用である。共に、従来より高い認識率を得ている。 3)構文解析規則とその音声の文字列への変換への利用の研究 科学技術論文を例にとり、音素認識が十分に高い率で行なわれれば、正しい漢字かな交じり文章を生成できるようになった。今後は、音素の誤りを許しての文字列への変換が課題である。
|