• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 課題ページに戻る

2011 年度 実施状況報告書

クラスタリングと教師なし適応学習に基づく時系列パターン認識システムの効率的な改善

研究課題

研究課題/領域番号 23700218
研究機関早稲田大学

研究代表者

小川 哲司  早稲田大学, 高等研究所, 助教 (70386598)

研究期間 (年度) 2011-04-28 – 2013-03-31
キーワードクラスタリング / ベイズ学習 / 教師なし学習 / 音環境理解 / パターン認識
研究概要

本研究では,音声メディアデータの構造化・検索支援システムの開発を通じ,ユーザやアプリケーションの枠を超えて,音声認識システムの性能を教師なしの枠組みで改善する(人手を掛けずにシステムを日々成長させる)方式を確立する. このうち平成23年度は,音声認識システムの性能を教師なしの枠組みで効率的に改善するための基幹技術として,音声データを発話者,周辺雑音といった音環境ごとにクラスタリングする方式の開発(以下【23-1】),およびクラスタリング結果を用いた音声認識システムの改善方式の開発(以下【23-2】)を行った.【23-1】音環境クラスタリング方式の開発:ここでは,2つの異なるアプローチで方式開発を行い,話者クラスタリングにより実証実験を行った.まず,(23-1-(1))クラスタ数未知の問題を解くのに適したノンパラメトリックベイズモデリングの枠組みを積極的に活用した発話単位ディレクレ過程混合モデルを考案し,従来方式と比較して,データ数やデータの変動に対して頑健に高いクラスタリング精度を達成した.しかし,この方式はデータの増大に伴う計算量の増加が無視できず,また短い発話や複数人が同時に発話した場合に所望の性能が得られない場合がある.そこで,これらの問題を低減可能な方式として,(23-1-(2))i-vectorと呼ばれる高精度な話者表現と非負値行列分解を用いた新たなクラスタリング方式を考案し,従来方式と比較して高い精度を達成した.さらに,両方式の性質は異なることから,両方式を統合することで更なる性能改善の可能性を見出した.【23-2】クラスタリング結果を用いた確率モデルの適応学習システムの開発:【23-1】で得られるクラスタリング結果に基づいて,音声認識に用いる確率モデル(音響モデル)を教師なしの枠組みで改善する方式の定式化を行い,プロトタイプシステムの開発を行った.

現在までの達成度 (区分)
現在までの達成度 (区分)

2: おおむね順調に進展している

理由

実施計画においては,平成23年度は「人手を掛けずに日々成長するシステム」のための基幹技術として音環境クラスタリング方式の開発を重点的に行い,さらに,その出力結果であるクラスタ情報を用いて音声認識システムの改善や音声データの可視化を行う計画であった.また,平成24年度においては,平成23年度に開発したシステムを拡張し,「ユーザやアプリケーションの壁」を超えて効率的にシステムを改善する方式を開発する計画である. 平成23年度においては,音環境クラスタリングに関して複数のアプローチで方式提案を行い,話者クラスタリングにおける有効性を実証した.また,そこで得られたクラスタ情報を用いて音声認識システム用の確率モデルを改善する枠組みについて,定式化とプロトタイプシステムの開発を行い,現在大規模な音声データを用いた実証実験を進めている状況である.したがって,研究の進捗状況は概ね実施計画通りに進展していると言える.音環境のクラスタリングに関しては,実施計画においてはノンパラメトリックベイズ学習に基づくアプローチのみを検討する予定であったが,実証実験の過程で短い発話や複数人の同時発話が含まれている場合に高いクラスタリング精度が得られない場合があり,それらの要因に対して頑健な方式としてi-vectorに基づく高精度な特徴抽出と非負値行列分解を統合したアプローチを提案するに至った.音環境クラスタリング技術は本研究の根幹を成す最も重要な技術であるため,音メディアデータの可視化・検索支援システムのプロトタイプ開発よりも優先して検討を行った.検索支援システムのプロトタイプ開発については,次年度も継続して検討を進める予定である.

今後の研究の推進方策

平成24年度は,少量の教師ラベルが得られた場合に「ユーザやアプリケーションの壁」を超えて効率的にシステムを改善する方式の開発を目指し,以下の【24-1】,【24-2】について検討を行う.【24-1】クラスタリング結果と少量の教師ラベルを用いた半教師あり学習方式の開発:まず,(24-1-(1))認識結果を修正(教師ラベルを付与)することで認識性能改善に寄与する度合いをクラスタごとに推定し,この寄与度が最も大きいクラスタに属するデータからラベルを付与することを促す「ラベル付与箇所推薦システム」を開発する.この枠組みによるラベル修正は,少量の教師ラベルを最大限に活用することを可能にする.本項目では主に,ラベル修正の認識性能改善に対する寄与度の算出方法について検討を行う.また,(24-1-(2))クラスタリング結果を利用した音声認識システムの教師なし適応学習方式を改良し,ユーザがラベルの修正を行った場合,修正がなされた箇所と類似したクラスタ(発話者や話題)のデータに対してのみ音声認識システムの適応学習とラベルの再推定を行う枠組みを開発する.さらに,最適なクラスタの粒度やクラスタ間の類似度について検討しながら,どの程度類似したクラスタに属するデータにまでラベル修正の影響を反映させるかについて知見を得る.【24-2】音声メディア情報の構造化・検索システムの開発・運用:音声の構造化・検索支援システムを構築し,【24-1】で開発した機能を追加することで,アプリケーションを限定しない適応学習の効果の検証を行う.その際,教師情報を全く与えない場合と少量の教師情報を与えた場合について評価を行う.後者においては,会議録作成支援システムを基本システムとし,修正された認識結果(教師ラベル)情報を用いて全く別のアプリケーションである音声対話システムに用いる音声認識システムの性能を改善することを試みる.

次年度の研究費の使用計画

「今後の研究の推進方策」における【24-2】に関して,会議音声やロボットが参与する対話音声を収録しながら実験を進める.このとき,逐次収録されるデータを保持するための大容量の記憶媒体として,RAID機能を持つストレージ装置とその制御用PCを各々1台ずつ購入する.また,成果発表として国内外の学会への参加や研究ディスカッションのための出張旅費が必要である.

  • 研究成果

    (11件)

すべて 2012 2011

すべて 雑誌論文 (4件) (うち査読あり 4件) 学会発表 (7件)

  • [雑誌論文] Fully Bayesian inference of multi-mixture Gaussian model and its evaluation using speaker clustering2012

    • 著者名/発表者名
      Naohiro Tawara, Tetsuji Ogawa, Shinji Watanabe, and Tetsunori Kobayashi
    • 雑誌名

      Proc. ICASSP2012

      巻: - ページ: 5253-5256

    • 査読あり
  • [雑誌論文] Speaker recognition using multiple kernel learning based on conditional entropy minimization2011

    • 著者名/発表者名
      Tetsuji Ogawa, Hideitsu Hino, Nima Reyhani, Noboru Murata, and Tetsunori Kobayashi
    • 雑誌名

      Proc. ICASSP2011

      ページ: 2204-2207

    • 査読あり
  • [雑誌論文] Speaker verification robust to intra-speaker variation using multiple kernel learning based on conditional entropy minimization2011

    • 著者名/発表者名
      Tetsuji Ogawa, Hideitsu Hino, Noboru Murata, and Tetsunori Kobayashi
    • 雑誌名

      Proc. Interspeech2011

      巻: - ページ: 2741-2744

    • 査読あり
  • [雑誌論文] Speaker clustering based on utterance-oriented Dirichelet process mixture model2011

    • 著者名/発表者名
      Naohiro Tawara, Shinji Watanabe, Tetsuji Ogawa, and Tetsunori Kobayashi
    • 雑誌名

      Proc. Interspeech2011

      巻: - ページ: 2905-2908

    • 査読あり
  • [学会発表] 話者照合における因子分析に基づく特徴抽出に関する評価2012

    • 著者名/発表者名
      小川哲司,小林哲則
    • 学会等名
      2012年日本音響学会春季研究発表会
    • 発表場所
      神奈川県横浜市,神奈川大学横浜キャンパス
    • 年月日
      2012年3月13日
  • [学会発表] 発話単位DPMMを用いたフルベイズ話者クラスタリングと大規模データによる評価2012

    • 著者名/発表者名
      俵直弘,小川哲司,渡部晋治,中村篤,小林哲則
    • 学会等名
      2012年日本音響学会春季研究発表会
    • 発表場所
      神奈川県横浜市,神奈川大学横浜キャンパス
    • 年月日
      2012年3月13日
  • [学会発表] 階層的構造を持つディリクレ過程混合モデルを用いたフルベイズ話者クラスタリング2012

    • 著者名/発表者名
      俵直弘,小川哲司,渡部晋治,中村篤,小林哲則
    • 学会等名
      電子情報通信学会・第8回 情報論的学習理論と機械学習研究会
    • 発表場所
      東京都立川市,統計数理研究所
    • 年月日
      2012年3月12日
  • [学会発表] 多重混合ガウス分布モデルにおけるフルベイズモデル推定手法の検討と話者クラスタリングによる評価2011

    • 著者名/発表者名
      俵直弘,渡部晋治,小川哲司,小林哲則
    • 学会等名
      2011年日本音響学会秋季研究発表会
    • 発表場所
      島根県松江市,島根大学松江キャンパス
    • 年月日
      2011年9月22日
  • [学会発表] クラス内変動に頑健なカーネルマシンと話者照合への適用2011

    • 著者名/発表者名
      小川哲司,日野英逸,村田昇,小林哲則
    • 学会等名
      2011年日本音響学会秋季研究発表会
    • 発表場所
      島根県松江市,島根大学松江キャンパス
    • 年月日
      2011年9月20日
  • [学会発表] 条件付きエントロピー最小化基準に基づくマルチカーネル学習を用いた発話スタイル変動に頑健な話者照合2011

    • 著者名/発表者名
      小川哲司,日野英逸,村田昇,小林哲則
    • 学会等名
      情報処理学会・第87回 音声言語情報処理研究会
    • 発表場所
      北海道札幌市,定山渓温泉 定山渓グランドホテル瑞苑
    • 年月日
      2011年7月21日
  • [学会発表] 階層的発話生成モデルを用いた話者クラスタリングのためのフルベイズモデル推定手法の比較2011

    • 著者名/発表者名
      俵直弘,小川哲司,渡部晋治,小林哲則
    • 学会等名
      第14回 情報論的学習理論ワークショップ
    • 発表場所
      奈良県奈良市,奈良女子大学
    • 年月日
      2011年11月9日

URL: 

公開日: 2013-07-10  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi