本研究では、研究分担者(田邉)によって開発された確率的予測推論機械dual Penalized Logistic Regression Machine (dPLRM)を用いたマルチメディア異種混合データの判別予測方式を確立することを目的とする。本年度は、マルチメディアデータの一つ、音声データを対象として、dPLRMの判別予測力を調査するとともに、その帰納力に関する検討を行った。具体的にはまず、テキスト独立型話者認識において、従来の混合ガウス分布モデルやサポートベクターマシンによる方法とその性能を比較した。話者10名が発声した音声による話者識別実験において、入力特徴量として26次元のメルケプストラムを用いた場合、dPLRMは従来法と同等以上の性能であることを示した。また、学習データ量を変化させた実験を通じて、dPLRMではカーネル関数により非線形性の扱いに優れ、また識別的な学習を行うために、比較的少量の学習データから各話者の特徴を捉えることができることを示した。なお、混合ガウス分布モデルによる方法は話者ごとに密度関数を推定するが、各話者の特徴を学習するのに、比較的多量のデータを必要とする。 次いで、dPLRMを用いて、メルケプストラムの抽出に見られるような事前知識に基づく特徴抽出処理を行うことなく、学習データだけから識別的な話者特徴を暗に捉えることを試みた。dPLRMは非常に高い帰納力を有し、ロジスティック回帰機械の双対機械として、学習データ中の(隠れた)構造を幅広く表現することが期待できる。話者10名が異なる3時期に発声した音声による識別実験において、256次元の対数パワースペクトルを直接用いたdPLRM法は、26次元のメルケプストラムを用いた混合ガウス分布モデルに基づく従来法と比べて、同等以上の性能であることを示した。
|