研究課題/領域番号 |
16500092
|
研究種目 |
基盤研究(C)
|
配分区分 | 補助金 |
応募区分 | 一般 |
研究分野 |
知能情報学
|
研究機関 | 早稲田大学 (2005-2006) 統計数理研究所 (2004) |
研究代表者 |
田邉 國士 早稲田大学, 理工学術院, 教授 (50000203)
|
研究分担者 |
松井 知子 統計数理研究所, モデリング研究系, 助教授 (10370090)
|
研究期間 (年度) |
2004 – 2006
|
研究課題ステータス |
完了 (2006年度)
|
配分額 *注記 |
3,600千円 (直接経費: 3,600千円)
2006年度: 1,200千円 (直接経費: 1,200千円)
2005年度: 1,400千円 (直接経費: 1,400千円)
2004年度: 1,000千円 (直接経費: 1,000千円)
|
キーワード | 学習機械 / 帰納推論 / 計算アルゴリズム / 罰金付き尤度 / ロジスティック回帰 / 判別 / 音声認識 / 話者識別 / Universal Induction Machine / Learning Machine / Automatic Discrimination / Probabilistic Prediction / Multimodal Data / Speach Recognition / Speaker Identification / Sound Source Detection / 罰金付き / 異種混合データ / 統合的判別 / カーネルマシン |
研究概要 |
本研究において得られた主要な成果は以下の通りである。 1.従来音声認識分野において最も有効とされ標準的となっている方法は、音声特徴抽出のための長年にわたる研究において確立されたデータの非線形前処理(メルケプストラム化等)を用いて、26次元に次元縮約された特徴データに基づき、各話者の特徴データから各話者の26次元分布関数を、混合ガウス分布モデル(GMM)によって推定し、与えられた未知話者の音声特徴データにたいして、最大尤度をもたらす話者候補を発声者と特定する方法である。これに対し本研究は、上記のような特徴抽出や次元縮約などの前処理を経ないで、256次元の音声データを直接、田邉が開発した汎帰納機械Penalized Logistic Regression Machin(PLRM)の双対機械であるdPLRMに入力することにより、データから話者弁別のための特徴を帰納することが可能であるかを実験し、上記の標準的方法よりも優れた性能があることを示した。また、dPLRMと同様の機能を持った方法の一つに、Support Vector Machine(SVM)があり、近年その有効性が認められ、多くの成功的適用例が報告されている。本研究においては、上記の話者認問題に対する、dPLRMとSVMの性能比較を行い、dPLRMがSVM同等以上の能力を持つことをも示した。本研究では更に進んで、汎帰納推論機械PLRMの内部関数である回帰関数として、隠れマルコフモデルを選ぶと、従来の隠れマルコフモデルのみに基づく方法よりも良い性能がでることを示しつつある。 2.PLRMおよびdPLRMのにおいては、大規模の線形方程式の高精度近似解を効率的に生成するアルゴリズムが要求される。本研究においては、PLRMおよびdPLRMの推論計算に必要となる大規模・悪条件の線形方程式の解法の反復改良法の新しいアルゴリズムを開発した。また、研究代表者は別のグループとの共同研究において、前処理を逐次的に適用して悪条件の線形方程式を解くRump法の収束性の証明を与え、同方法の有用性を示した。
|