様々な要因を含んだ大量の音声データから教師なし学習によりDeep Generative Model(DGM)を構築し、それをFactorize(要因毎に分解)することで個々の要因向けの高性能なモデルを獲得する。音声情報処理のための新しい方法論とそのための技術基盤を確立する。初年度は教師なし学習によりDeep Neural Network (DNN)の一つの形態であるAutoencoderを構築し、それから更にSiameseネットワークを構成して、音声信号から話者情報を抽出する仕組みを提案し、話者適応における効果を確認した。次年度は、それとは別角度からのアプローチで、話者の少量の音声を用いて音声情報から音素モデルを学習することで音声から音素情報を分離し、それを制約として、より複雑な環境依存音素モデルを学習する手法を提案した。これも話者適応において効果を確認し、本年度に入ってからいくつかの他機関で追随研究が発表されている。最終年度である昨年度は、これらの成果を基盤として、当該ドメイン(話者適応の場合は当該話者)の大量のラベルなしデータを併せて用いることにより、さらに性能を向上させる枠組みを研究した。具体的には、1) まず大規模データが存在するドメインで高性能な大規模DNNを学習する。2) 次に新しいドメイン向けの小規模DNNを小規模データを用いた教師有学習で構築する。3) さらに、新しいドメインの大量の教師なしデータを前述の大規模DNNに入力し、その出力(0から1までの実数)を得る。4) 前ステップで得られた出力信号を教師として、小規模DNNをさらに学習する。これはStudent-Teacher Learning の枠組みでsoft-target learningを行っていることに相当する。この方法を用いることで、ドメインに適応した、小型かつ高性能なDNNを獲得できることを評価実験で確認した。
|