2012 Fiscal Year Annual Research Report

クラスタリングと教師なし適応学習に基づく時系列パターン認識システムの効率的な改善

Research Project

Project/Area Number	23700218
Research Institution	Waseda University
Principal Investigator	小川哲司早稲田大学, 理工学術院, 准教授 (70386598)
Keywords	クラスタリング / ベイズ学習 / 教師なし学習 / 音環境理解 / パターン認識
Research Abstract	本研究では，音声データの構造化・検索支援のための基幹技術として，音声データを発話者や雑音といった音環境ごとにクラスタリングする技術と音声認識システムを教師なしの枠組みで改善する（日々成長させる）技術の開発を行った．主な研究成果は以下の通りである．このうち平成24年度は，【24-1】音環境クラスタリングの改良と，【24-2】雑音に頑健なデータドリブン型音声認識システムの開発を行った．【成果１】環境変動に頑健な音環境クラスタリング：【23-1】データに応じてクラスタ数とモデルパラメータを同時に最適化可能な話者モデリングとして，セグメント単位ディレクレ過程混合モデルを提案した．特に平成24年度は，【24-1】サンプリング手法の高精度化について詳細な検討を行い，データの量および質（雑音など）の変動に対して頑健に高いクラスタリング精度を達成した．また，【23-2】発話内に複数話者が混在する場合に対して頑健な方式として，i-vectorを話者表現として用いた非負値行列分解に基づく話者クラスタリングを開発し，データ量の変動に対して頑健な性能を達成した．【成果２】クラスタリング結果を用いた確率モデルの適応学習システムの開発：【23-3】［成果１］で得られたクラスタリング結果に基づいて，音声認識に用いる確率モデル（音響モデル）を教師なしの枠組みで改善する方式について検討を行い，プロトタイプシステムを開発した．【成果３】データドリブン型マルチストリーム音声認識システムの開発：【24-2】音声認識性能を予測しながら，各時刻において良好な性能を与える音声認識システムを選択・統合することで，雑音の変動に対して頑健に高い性能を与える音声認識方式を開発した．［成果１，２］と本成果と統合することで，雑音変動に頑健であり，かつ日々得られるデータを用いて自動改善可能な音声認識システムの実現が期待できる．

Research Products
(7 results)

All 2013 2012

All Journal Article (2 results) (of which Peer Reviewed: 2 results) Presentation (5 results)

[Journal Article] An improved entropy-based multiple kernel learning2012
- Author(s)
  Hideitsu Hino and Tetsuji Ogawa
- Journal Title
  
  Proc. ICPR2012
  
  Pages: 1189-1192
- Peer Reviewed
[Journal Article] Fully Bayesian speaker clustering based on hierarchically structured utterance-oriented Dirichlet process mixture model2012
- Author(s)
  Naohiro Tawara, Tetsuji Ogawa, Shinji Watanabe, Atsushi Nakamura, and Tetsunori Kobayashi
- Journal Title
  
  Proc. Interspeech2012
  
  Volume: － Pages: －
- Peer Reviewed
[Presentation] 性能モニタリングに基づく多層パーセプトロンの適応的選択による雑音に頑健なマルチストリーム音声認識2013
- Author(s)
  小川哲司，Li Feipeng，Hermansky Hynek
- Organizer
  日本音響学会 2013年春季研究発表会
- Place of Presentation
  東京工科大学
- Year and Date
  20130313-20130315
[Presentation] 指向性を付与したマルチチャネルウィーナフィルタを前段に持つ音源分離方式の検討2013
- Author(s)
  大町基，小川哲司，赤桐健三，小林哲則
- Organizer
  日本音響学会 2013年春季研究発表会
- Place of Presentation
  東京工科大学
- Year and Date
  20130313-20130315
[Presentation] 話者認識技術の現状と課題2013
- Author(s)
  網野加苗，石原俊一，小川哲司，長内隆，黒岩眞吾，越仲孝文，篠田浩一，柘植覚，西田昌史，松井知子，王龍標
- Organizer
  電子情報通信学会2013年2月度音声研究会
- Place of Presentation
  大同大学
- Year and Date
  20130228-20130301
[Presentation] 天井設置型マイクロホンアレイにおいて残響が音声の分離・認識性能に与える影響2012
- Author(s)
  大町基，小川哲司，小林哲則
- Organizer
  日本音響学会 2012年秋季研究発表会
- Place of Presentation
  信州大学
- Year and Date
  20120919-20120921
[Presentation] i-vectorに基づく発話類似度を用いた非負値行列分解と話者クラスタリングへの適用2012
- Author(s)
  福地佑介，俵直弘，小川哲司，小林哲則
- Organizer
  情報処理学会第92回音声言語情報処理研究発表会
- Place of Presentation
  天童温泉滝の湯（山形県天童市）
- Year and Date
  20120719-20120721

2012 Fiscal Year Annual Research Report

クラスタリングと教師なし適応学習に基づく時系列パターン認識システムの効率的な改善

Principal Investigator

小川 哲司 早稲田大学, 理工学術院, 准教授 (70386598)

Research Products

[Journal Article] An improved entropy-based multiple kernel learning2012

Author(s)

Journal Title

[Journal Article] Fully Bayesian speaker clustering based on hierarchically structured utterance-oriented Dirichlet process mixture model2012

Author(s)

Journal Title

[Presentation] 性能モニタリングに基づく多層パーセプトロンの適応的選択による雑音に頑健なマルチストリーム音声認識2013

Author(s)

Organizer

Place of Presentation

Year and Date

[Presentation] 指向性を付与したマルチチャネルウィーナフィルタを前段に持つ音源分離方式の検討2013

Author(s)

Organizer

Place of Presentation

Year and Date

[Presentation] 話者認識技術の現状と課題2013

Author(s)

Organizer

Place of Presentation

Year and Date

[Presentation] 天井設置型マイクロホンアレイにおいて残響が音声の分離・認識性能に与える影響2012

Author(s)

Organizer

Place of Presentation

Year and Date

[Presentation] i-vectorに基づく発話類似度を用いた非負値行列分解と話者クラスタリングへの適用2012

Author(s)

Organizer

Place of Presentation

Year and Date

小川哲司早稲田大学, 理工学術院, 准教授 (70386598)