研究概要 |
本研究の目的は,実用化を念頭に,たえず騒音や雑音が存在する実騒音環境下において,発音・発声困難者の音声を健常者の音声へ自動変換するシステムを,ソフトコンピューティング技術を用いて開発し,スムーズな音声コミュニケーションの手段を確立することである. そこで本研究では,騒音や雑音の影響を受けない骨導マイクの使用を前提に,発音・発声困難者の音声を骨導マイクで取得→発音・発声困難者の骨導音声を良質な音声へ変換→変換音声の音声認識→認識した音声を音声合成により発話,の手順で音声コミュニケーションの手段を確立する. 骨導マイクは騒音に対して非常に強い耐性を持つ反面,帯域が狭く音質が著しく劣化してしまう.これらの骨導音声を音声認識するためには,まず,良質な音声に変換しなければならない.そこで,本年度は,音声特徴量として新たにデルタケプストラム,距離尺度としてマハラノビス距離,音声特徴量変換としてマッピングコードブックによる方法を用いて,骨導音声の音質改善を行い,本研究の仕上げとした. 具体的には,変換すべき音声特徴量間の対応関係を1対1に修正した後,ニューラルガスネットワークにより音声特徴量の分類を行った.次に,分類された各クラス毎に複数の局所変換モデルを作成し,これらのモデルを適応的に選択することにより音声変換を行った.実験では,一人の話者が発話した17単語5組を用いて音声変換精度を評価した.実験では,本手法を用いることにより,一例として,量子化歪14.8dBを持つ骨導音声が,変換により量子化歪5dB以下にまでその音質が改善され,本手法の有効性が確認された.
|