Effective improvement of time-series pattern recognition systems using clustering and unsupervised adaptive training

Research Project

Project/Area Number	23700218
Research Category	Grant-in-Aid for Young Scientists (B)
Allocation Type	Multi-year Fund
Research Field	Perception information processing/Intelligent robotics
Research Institution	Waseda University
Principal Investigator	OGAWA Tetsuji 早稲田大学, 理工学術院, 准教授 (70386598)
Project Period (FY)	2011 – 2012
Project Status	Completed (Fiscal Year 2012)
Budget Amount *help	¥3,510,000 (Direct Cost: ¥2,700,000、Indirect Cost: ¥810,000) Fiscal Year 2012: ¥1,560,000 (Direct Cost: ¥1,200,000、Indirect Cost: ¥360,000) Fiscal Year 2011: ¥1,950,000 (Direct Cost: ¥1,500,000、Indirect Cost: ¥450,000)
Keywords	クラスタリング / ベイズ学習 / 教師なし学習 / 音環境理解 / パターン認識
Research Abstract	I developed technologies for clustering speech data into acoustic attributes such as speakers and types of noise and technologies for adaptively optimizing speech recognition systems in unsupervised ways. The developed technologies would be essential for constructing a system structuring speech data and a speech retrieval system.

Report

(3 results)

2012 Annual Research Report Final Research Report ( PDF )
2011 Research-status Report

Research Products
(34 results)

All 2013 2012 2011

All Journal Article (22 results) (of which Peer Reviewed: 11 results) Presentation (12 results)

[Journal Article] Stream selection and integration in multistream ASR using GMM-based performance monitoring2013
- Author(s)
  Tetsuji Ogawa, Feipeng Li, Hynek Hermansky
- Journal Title
  
  Proc. INTERSPEECH 2013
  
  Volume: (to appear)
- Related Report
  2012 Final Research Report
- Peer Reviewed
[Journal Article] 話者認識で用いる機械学習2013
- Author(s)
  小川哲司, 松井知子
- Journal Title
  
  日本音響学会誌
  
  Volume: vol.69no.7(to appear)
- Related Report
  2012 Final Research Report
[Journal Article] 性能モニタリングに基づく多層パーセプトロンの適応的選択による雑音に頑健なマルチストリーム音声認識2013
- Author(s)
  小川哲司, Li Feipeng, Hermansky Hynek
- Journal Title
  
  音講論集
  
  Pages: 167-170
- Related Report
  2012 Final Research Report
[Journal Article] 話者認識技術の現状と課題2013
- Author(s)
  網野加苗, 石原俊一, 小川哲司, 長内隆, 黒岩眞吾, 仲孝文, 篠田浩一, 柘植覚, 西田昌史, 松井知子, 王龍標
- Journal Title
  
  信学技法(SP)
  
  Volume: vol.112, no.450 Pages: 63-70
- Related Report
  2012 Final Research Report
[Journal Article] An improved entropy-based multiple kernel learning2012
- Author(s)
  Hideitsu Hino and Tetsuji Ogawa
- Journal Title
  
  Proc. ICPR2012
  
  Pages: 1189-1192
- Related Report
  2012 Annual Research Report 2012 Final Research Report
- Peer Reviewed
[Journal Article] Fully Bayesian speaker clustering based on hierarchically structured utterance-oriented Dirichlet process mixture model2012
- Author(s)
  Naohiro Tawara, Tetsuji Ogawa, Shinji Watanabe, Atsushi Nakamura, and Tetsunori Kobayashi
- Journal Title
  
  Proc. INTERSPEECH2012
- Related Report
  2012 Final Research Report
- Peer Reviewed
[Journal Article] i-vectorに基づく発話類似度を用いた非負値行列分解と話者クラスタリングへの適用2012
- Author(s)
  福地佑介, 俵直弘, 小川哲司, 小林哲則
- Journal Title
  
  情処研報
  
  Volume: vol.2012-SLP-02
- NAID
  110009422505
- Related Report
  2012 Final Research Report
[Journal Article] Fully Bayesian inference of multi-mixture Gaussian model and its evaluation using speaker clustering2012
- Author(s)
  Naohiro Tawara, Tetsuji Ogawa, Shinji Watanabe, Tetsunori Kobayashi
- Journal Title
  
  Proc. ICASSP2012
  
  Pages: 5253-5256
- Related Report
  2012 Final Research Report
- Peer Reviewed
[Journal Article] 階層的構造を持つディリクレ過程混合モデルを用いたフルベイズ話者クラスタリング2012
- Author(s)
  俵直弘, 小川哲司, 渡部晋治, 中村篤, 小林哲則
- Journal Title
  
  信学技報(IBISML)
  
  Volume: vol.111, no.480 Pages: 21-28
- NAID
  110009545971
- Related Report
  2012 Final Research Report
[Journal Article] 話者照合における因子分析に基づく特徴抽出に関する評価2012
- Author(s)
  小川哲司, 小林哲則
- Journal Title
  
  音講論集
  
  Pages: 197-198
- Related Report
  2012 Final Research Report
[Journal Article] 発話単位DPMMを用いたフルベイズ話者クラスタリングと大規模データによる評価2012
- Author(s)
  俵直弘, 小川哲司, 渡部晋治, 中村篤, 小林哲則
- Journal Title
  
  音講論集
  
  Pages: 207-210
- Related Report
  2012 Final Research Report
[Journal Article] Fully Bayesian speaker clustering based on hierarchically structured utterance-oriented Dirichlet process mixture model2012
- Author(s)
  Naohiro Tawara, Tetsuji Ogawa, Shinji Watanabe, Atsushi Nakamura, and Tetsunori Kobayashi
- Journal Title
  
  Proc. Interspeech2012
  
  Volume: －
- Related Report
  2012 Annual Research Report
- Peer Reviewed
[Journal Article] Fully Bayesian inference of multi-mixture Gaussian model and its evaluation using speaker clustering2012
- Author(s)
  Naohiro Tawara, Tetsuji Ogawa, Shinji Watanabe, and Tetsunori Kobayashi
- Journal Title
  
  Proc. ICASSP2012
  
  Volume: － Pages: 5253-5256
- Related Report
  2011 Research-status Report
- Peer Reviewed
[Journal Article] 階層的発話生成モデルを用いた話者クラスタリングのためのフルベイズモデル推定手法の比較2011
- Author(s)
  俵直弘, 小川哲司, 渡部晋治, 小林哲則
- Journal Title
  
  第14回情報論的学習理論ワークショップ(IBIS2011)
- Related Report
  2012 Final Research Report
[Journal Article] クラス内変動に頑健なカーネルマシンと話者照合への適用2011
- Author(s)
  小川哲司, 日野英逸, 村田昇, 小林哲則
- Journal Title
  
  音講論集
  
  Pages: 183-186
- Related Report
  2012 Final Research Report
[Journal Article] 多重混合ガウス分布モデルにおけるフルベイズモデル推定手法の検討と話者クラスタリングによる評価2011
- Author(s)
  俵直弘, 渡部晋治, 小川哲司, 小林哲則
- Journal Title
  
  音講論集
  
  Pages: 175-178
- Related Report
  2012 Final Research Report
[Journal Article] Speaker verification robust to intra-speaker variation using multiple kernel learning based on conditional entropy minimization2011
- Author(s)
  Tetsuji Ogawa, Hideitsu Hino, Noboru Murata, and Tetsunori Kobayashi
- Journal Title
  
  Proc. INTERSPEECH2011
  
  Pages: 2741-2744
- Related Report
  2012 Final Research Report
- Peer Reviewed
[Journal Article] Speaker clustering based on utterance-oriented Dirichelet process mixture model2011
- Author(s)
  Naohiro Tawara, Shinji Watanabe, Tetsuji Ogawa and Tetsunori Kobayashi
- Journal Title
  
  Proc. INTERSPEECH2011
  
  Pages: 2905-2908
- Related Report
  2012 Final Research Report
- Peer Reviewed
[Journal Article] 条件付きエントロピー最小化基準に基づくマルチカーネル学習を用いた発話スタイル変動に頑健な話者照合2011
- Author(s)
  小川哲司, 日野英逸, 村田昇, 小林哲則
- Journal Title
  
  情処研報
  
  Volume: vol.2011-SLP-87
- NAID
  110008584130
- Related Report
  2012 Final Research Report
[Journal Article] Speaker recognition using multiple kernel learning based on conditional entropy minimization2011
- Author(s)
  Tetsuji Ogawa, Hideitsu Hino, Nima Reyhani, Noboru Murata, and Tetsunori Kobayashi
- Journal Title
  
  Proc. ICASSP2011
  
  Pages: 2204-2207
- Related Report
  2012 Final Research Report 2011 Research-status Report
- Peer Reviewed
[Journal Article] Speaker verification robust to intra-speaker variation using multiple kernel learning based on conditional entropy minimization2011
- Author(s)
  Tetsuji Ogawa, Hideitsu Hino, Noboru Murata, and Tetsunori Kobayashi
- Journal Title
  
  Proc. Interspeech2011
  
  Volume: － Pages: 2741-2744
- Related Report
  2011 Research-status Report
- Peer Reviewed
[Journal Article] Speaker clustering based on utterance-oriented Dirichelet process mixture model2011
- Author(s)
  Naohiro Tawara, Shinji Watanabe, Tetsuji Ogawa, and Tetsunori Kobayashi
- Journal Title
  
  Proc. Interspeech2011
  
  Volume: － Pages: 2905-2908
- Related Report
  2011 Research-status Report
- Peer Reviewed
[Presentation] 話者認識技術の現状と課題2013
- Author(s)
  網野加苗，石原俊一，小川哲司，長内隆，黒岩眞吾，越仲孝文，篠田浩一，柘植覚，西田昌史，松井知子，王龍標
- Organizer
  電子情報通信学会2013年2月度音声研究会
- Place of Presentation
  大同大学
- Related Report
  2012 Annual Research Report
[Presentation] 性能モニタリングに基づく多層パーセプトロンの適応的選択による雑音に頑健なマルチストリーム音声認識2013
- Author(s)
  小川哲司，Li Feipeng，Hermansky Hynek
- Organizer
  日本音響学会 2013年春季研究発表会
- Place of Presentation
  東京工科大学
- Related Report
  2012 Annual Research Report
[Presentation] 指向性を付与したマルチチャネルウィーナフィルタを前段に持つ音源分離方式の検討2013
- Author(s)
  大町基，小川哲司，赤桐健三，小林哲則
- Organizer
  日本音響学会 2013年春季研究発表会
- Place of Presentation
  東京工科大学
- Related Report
  2012 Annual Research Report
[Presentation] i-vectorに基づく発話類似度を用いた非負値行列分解と話者クラスタリングへの適用2012
- Author(s)
  福地佑介，俵直弘，小川哲司，小林哲則
- Organizer
  情報処理学会第92回音声言語情報処理研究発表会
- Place of Presentation
  天童温泉滝の湯（山形県天童市）
- Related Report
  2012 Annual Research Report
[Presentation] 天井設置型マイクロホンアレイにおいて残響が音声の分離・認識性能に与える影響2012
- Author(s)
  大町基，小川哲司，小林哲則
- Organizer
  日本音響学会 2012年秋季研究発表会
- Place of Presentation
  信州大学
- Related Report
  2012 Annual Research Report
[Presentation] 階層的構造を持つディリクレ過程混合モデルを用いたフルベイズ話者クラスタリング2012
- Author(s)
  俵直弘，小川哲司，渡部晋治，中村篤，小林哲則
- Organizer
  電子情報通信学会・第8回情報論的学習理論と機械学習研究会
- Place of Presentation
  東京都立川市，統計数理研究所
- Related Report
  2011 Research-status Report
[Presentation] 話者照合における因子分析に基づく特徴抽出に関する評価2012
- Author(s)
  小川哲司，小林哲則
- Organizer
  2012年日本音響学会春季研究発表会
- Place of Presentation
  神奈川県横浜市，神奈川大学横浜キャンパス
- Related Report
  2011 Research-status Report
[Presentation] 発話単位DPMMを用いたフルベイズ話者クラスタリングと大規模データによる評価2012
- Author(s)
  俵直弘，小川哲司，渡部晋治，中村篤，小林哲則
- Organizer
  2012年日本音響学会春季研究発表会
- Place of Presentation
  神奈川県横浜市，神奈川大学横浜キャンパス
- Related Report
  2011 Research-status Report
[Presentation] 階層的発話生成モデルを用いた話者クラスタリングのためのフルベイズモデル推定手法の比較2011
- Author(s)
  俵直弘，小川哲司，渡部晋治，小林哲則
- Organizer
  第14回情報論的学習理論ワークショップ
- Place of Presentation
  奈良県奈良市，奈良女子大学
- Related Report
  2011 Research-status Report
[Presentation] 条件付きエントロピー最小化基準に基づくマルチカーネル学習を用いた発話スタイル変動に頑健な話者照合2011
- Author(s)
  小川哲司，日野英逸，村田昇，小林哲則
- Organizer
  情報処理学会・第87回音声言語情報処理研究会
- Place of Presentation
  北海道札幌市，定山渓温泉定山渓グランドホテル瑞苑
- Related Report
  2011 Research-status Report
[Presentation] クラス内変動に頑健なカーネルマシンと話者照合への適用2011
- Author(s)
  小川哲司，日野英逸，村田昇，小林哲則
- Organizer
  2011年日本音響学会秋季研究発表会
- Place of Presentation
  島根県松江市，島根大学松江キャンパス
- Related Report
  2011 Research-status Report
[Presentation] 多重混合ガウス分布モデルにおけるフルベイズモデル推定手法の検討と話者クラスタリングによる評価2011
- Author(s)
  俵直弘，渡部晋治，小川哲司，小林哲則
- Organizer
  2011年日本音響学会秋季研究発表会
- Place of Presentation
  島根県松江市，島根大学松江キャンパス
- Related Report
  2011 Research-status Report

Effective improvement of time-series pattern recognition systems using clustering and unsupervised adaptive training

Principal Investigator

OGAWA Tetsuji 早稲田大学, 理工学術院, 准教授 (70386598)

¥3,510,000 (Direct Cost: ¥2,700,000、Indirect Cost: ¥810,000)

Report

Research Products

[Journal Article] Stream selection and integration in multistream ASR using GMM-based performance monitoring2013

Author(s)

Journal Title

Related Report

[Journal Article] 話者認識で用いる機械学習2013

Author(s)

Journal Title

Related Report

[Journal Article] 性能モニタリングに基づく多層パーセプトロンの適応的選択による雑音に頑健なマルチストリーム音声認識2013

Author(s)

Journal Title

Related Report

[Journal Article] 話者認識技術の現状と課題2013

Author(s)

Journal Title

Related Report

[Journal Article] An improved entropy-based multiple kernel learning2012

Author(s)

Journal Title

Related Report

[Journal Article] Fully Bayesian speaker clustering based on hierarchically structured utterance-oriented Dirichlet process mixture model2012

Author(s)

Journal Title

Related Report

[Journal Article] i-vectorに基づく発話類似度を用いた非負値行列分解と話者クラスタリングへの適用2012

Author(s)

Journal Title

NAID

Related Report

[Journal Article] Fully Bayesian inference of multi-mixture Gaussian model and its evaluation using speaker clustering2012

Author(s)

Journal Title

Related Report

[Journal Article] 階層的構造を持つディリクレ過程混合モデルを用いたフルベイズ話者クラスタリング2012

Author(s)

Journal Title

NAID

Related Report

[Journal Article] 話者照合における因子分析に基づく特徴抽出に関する評価2012

Author(s)

Journal Title

Related Report

[Journal Article] 発話単位DPMMを用いたフルベイズ話者クラスタリングと大規模データによる評価2012

Author(s)

Journal Title

Related Report

[Journal Article] Fully Bayesian speaker clustering based on hierarchically structured utterance-oriented Dirichlet process mixture model2012

Author(s)

Journal Title

Related Report

[Journal Article] Fully Bayesian inference of multi-mixture Gaussian model and its evaluation using speaker clustering2012

Author(s)

Journal Title

Related Report

[Journal Article] 階層的発話生成モデルを用いた話者クラスタリングのためのフルベイズモデル推定手法の比較2011

Author(s)

Journal Title

Related Report

[Journal Article] クラス内変動に頑健なカーネルマシンと話者照合への適用2011

Author(s)

Journal Title

Related Report

[Journal Article] 多重混合ガウス分布モデルにおけるフルベイズモデル推定手法の検討と話者クラスタリングによる評価2011

Author(s)

Journal Title

Related Report

[Journal Article] Speaker verification robust to intra-speaker variation using multiple kernel learning based on conditional entropy minimization2011

Author(s)

Journal Title

Related Report

[Journal Article] Speaker clustering based on utterance-oriented Dirichelet process mixture model2011

Author(s)

Journal Title

Related Report