• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 課題ページに戻る

2015 年度 実施状況報告書

混合音に対する複数同時発話認識のための統一的ベイズアプローチ

研究課題

研究課題/領域番号 15K12063
研究機関京都大学

研究代表者

吉井 和佳  京都大学, 情報学研究科, 講師 (20510001)

研究分担者 糸山 克寿  京都大学, 情報学研究科, 助教 (60614451)
研究期間 (年度) 2015-04-01 – 2017-03-31
キーワード音声認識 / 音源分離 / ベイズモデル
研究実績の概要

平成27年度は、実環境中で録音された混合音(同時発話音声)に対する音声認識を課題として、分離音声を一意に定めず、分離音声のあらゆる可能性を考慮することにより、最終的な音声認識精度を向上させることができる技術を開発した。本研究の核心は、ベイズモデルに基づく最新の音源分離手法を用いて、分離音声のスペクトログラムを確率的にギブスサンプリングすることにある。このようにして得られた各分離音声に対して、独立に音声認識を行い、認識結果をROVER法で統合する方式を考案した。ベイズモデルの観点からは、分離音声を積分消去していることに相当するが、音声認識結果に曖昧性がなく(事後分布が非常に急峻)、認識結果の各単語が独立であるという条件のもとで、提案手法が数学的に正しいことを示した。研究成果は、音声認識や音声信号処理に関する国際会議であるInterspeech 2015に採択された。さらなる研究の進展として、本研究の基礎になっている音源分離のためのベイズモデルを改良することに取り組んだ。従来のベイズモデルは、潜在的ディリクレ配分法(LDA)を拡張したものであり、各時間・周波数ビンをある特定の音源に排他的に割り当てるものであった。このモデルに対し、音源信号のスペクトログラムの低ランク性を表現する非負値行列因子分解(NMF)を統合することにより、さらなる音源分離の性能向上が果たせることを予備的な実験により確認した。

現在までの達成度 (区分)
現在までの達成度 (区分)

1: 当初の計画以上に進展している

理由

「研究実績の概要」に述べた通り、当初の目標である音声認識精度の改善を達成し、さらに音源分離手法自体の改善自体も進んでいる。

今後の研究の推進方策

今後は、音源分離手法のオンライン化や残響除去・雑音除去との統合にも取り組む。さらに、音声認識との統合についても研究を進める。

次年度使用額が生じた理由

研究スケジュールの関係で、当初計画していたよりも旅費が少なく済んだ。

次年度使用額の使用計画

音源分離の実行には膨大な計算が伴うため、強力な計算サーバの購入を検討している。国際会議に関する旅費や論文誌投稿料も増加する見込みである。

  • 研究成果

    (2件)

すべて 2015

すべて 学会発表 (2件) (うち国際学会 1件)

  • [学会発表] 音源分離のためのベイズモデルに基づく音源信号の不確実性を考慮した音声認識2015

    • 著者名/発表者名
      板倉光佑, 坂東宜昭, 糸山克寿, 吉井和佳
    • 学会等名
      日本音響学会 2015年秋季研究発表会
    • 発表場所
      会津大学
    • 年月日
      2015-09-16 – 2015-09-18
  • [学会発表] Bayesian Integration of Sound Source Separation and Speech Recognition: A New Approach to Simultaneous Speech Recognition2015

    • 著者名/発表者名
      Kousuke Itakura, Izaya Nishimuta, Yoshiaki Bando, Katsutoshi Itoyama, Kazuyoshi Yoshii
    • 学会等名
      Interspeech
    • 発表場所
      Dresden, Germany
    • 年月日
      2015-09-06 – 2015-09-10
    • 国際学会

URL: 

公開日: 2017-01-06  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi