• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2015 Fiscal Year Research-status Report

混合音に対する複数同時発話認識のための統一的ベイズアプローチ

Research Project

Project/Area Number 15K12063
Research InstitutionKyoto University

Principal Investigator

吉井 和佳  京都大学, 情報学研究科, 講師 (20510001)

Co-Investigator(Kenkyū-buntansha) 糸山 克寿  京都大学, 情報学研究科, 助教 (60614451)
Project Period (FY) 2015-04-01 – 2017-03-31
Keywords音声認識 / 音源分離 / ベイズモデル
Outline of Annual Research Achievements

平成27年度は、実環境中で録音された混合音(同時発話音声)に対する音声認識を課題として、分離音声を一意に定めず、分離音声のあらゆる可能性を考慮することにより、最終的な音声認識精度を向上させることができる技術を開発した。本研究の核心は、ベイズモデルに基づく最新の音源分離手法を用いて、分離音声のスペクトログラムを確率的にギブスサンプリングすることにある。このようにして得られた各分離音声に対して、独立に音声認識を行い、認識結果をROVER法で統合する方式を考案した。ベイズモデルの観点からは、分離音声を積分消去していることに相当するが、音声認識結果に曖昧性がなく(事後分布が非常に急峻)、認識結果の各単語が独立であるという条件のもとで、提案手法が数学的に正しいことを示した。研究成果は、音声認識や音声信号処理に関する国際会議であるInterspeech 2015に採択された。さらなる研究の進展として、本研究の基礎になっている音源分離のためのベイズモデルを改良することに取り組んだ。従来のベイズモデルは、潜在的ディリクレ配分法(LDA)を拡張したものであり、各時間・周波数ビンをある特定の音源に排他的に割り当てるものであった。このモデルに対し、音源信号のスペクトログラムの低ランク性を表現する非負値行列因子分解(NMF)を統合することにより、さらなる音源分離の性能向上が果たせることを予備的な実験により確認した。

Current Status of Research Progress
Current Status of Research Progress

1: Research has progressed more than it was originally planned.

Reason

「研究実績の概要」に述べた通り、当初の目標である音声認識精度の改善を達成し、さらに音源分離手法自体の改善自体も進んでいる。

Strategy for Future Research Activity

今後は、音源分離手法のオンライン化や残響除去・雑音除去との統合にも取り組む。さらに、音声認識との統合についても研究を進める。

Causes of Carryover

研究スケジュールの関係で、当初計画していたよりも旅費が少なく済んだ。

Expenditure Plan for Carryover Budget

音源分離の実行には膨大な計算が伴うため、強力な計算サーバの購入を検討している。国際会議に関する旅費や論文誌投稿料も増加する見込みである。

  • Research Products

    (2 results)

All 2015

All Presentation (2 results) (of which Int'l Joint Research: 1 results)

  • [Presentation] 音源分離のためのベイズモデルに基づく音源信号の不確実性を考慮した音声認識2015

    • Author(s)
      板倉光佑, 坂東宜昭, 糸山克寿, 吉井和佳
    • Organizer
      日本音響学会 2015年秋季研究発表会
    • Place of Presentation
      会津大学
    • Year and Date
      2015-09-16 – 2015-09-18
  • [Presentation] Bayesian Integration of Sound Source Separation and Speech Recognition: A New Approach to Simultaneous Speech Recognition2015

    • Author(s)
      Kousuke Itakura, Izaya Nishimuta, Yoshiaki Bando, Katsutoshi Itoyama, Kazuyoshi Yoshii
    • Organizer
      Interspeech
    • Place of Presentation
      Dresden, Germany
    • Year and Date
      2015-09-06 – 2015-09-10
    • Int'l Joint Research

URL: 

Published: 2017-01-06  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi