2010 Fiscal Year Annual Research Report
モデル構造の逐次最適化機能を有するオンライン適応型パターン認識に関する研究
Project/Area Number |
21700205
|
Research Institution | Waseda University |
Principal Investigator |
小川 哲司 早稲田大学, 高等研究所, 助教 (70386598)
|
Keywords | ベイズ学習 / 教師なし学習 / 最適化 / 人物認識 / パターン認識 |
Research Abstract |
本研究では,パターン認識システムの精度とシステムを使用する環境の変動に対する頑健性を向上させるために,パターン認識に用いる確率モデルの構造と分布パラメータを効率的に最適化する方式について検討を行った. 本年度は,逐次入力されるデータの性質の変動に頑健な話者モデリングについて検討を行った.具体的な検討項目は下記の通りである. (1)発話を単位としたディクリレ過程混合モデルの定式化と話者クラスタリングによる評価 逐次入力されるデータの性質に応じて話者クラス数と分布パラメータを同時に最適化する枠組みを,ノンパラメトリックベイズモデリングを用いて実装した.ここでは,発話を単位としたディリクレ過程混合モデルを定式化し,観測データに応じて話者クラスタ数が適切に決まる(無限の話者数を扱える)柔軟な枠組みで話者のモデル化を実現した. 本方式を音声による話者クラスタリング問題に適用し,BICに基づく従来方式と比較を行ったところ,提案方式は従来方式よりも高速かつ高精度な話者クラスタリングを実現できることが明らかになった.さらに,提案方式はチューニンダパラメータの値の変動に対しても頑健に高い性能を与えることを示した.これは,実用上重要な性質である. (2)条件付きエントロピー最小化基準に基づくマルチカーネル学習を用いた話者認識 発話した時期の違いや発話スタイルの変動に頑健でチューニングが容易な話者認識システムを構築した.条件付きエントロピー最小化基準を用いて話者識別器を構築することで,データは特徴空間においてクラスごとに密集し,クラス間では散らばる,という性質が与えられる.この性質により,話者内のデータ変動に頑健な認識を可能とする. 本方式を音声による話者識別や話者照合に適用し,従来のマージン最大化基準に基づく方式の誤りを削減するとともに,データ変動に対する頑健性を改善することを明らかにした.
|
Research Products
(3 results)