研究課題/領域番号 |
15K12063
|
研究機関 | 京都大学 |
研究代表者 |
吉井 和佳 京都大学, 情報学研究科, 講師 (20510001)
|
研究分担者 |
糸山 克寿 京都大学, 情報学研究科, 助教 (60614451)
|
研究期間 (年度) |
2015-04-01 – 2017-03-31
|
キーワード | 音声認識 / 音源分離 / ベイズモデル |
研究実績の概要 |
平成27年度は、実環境中で録音された混合音(同時発話音声)に対する音声認識を課題として、分離音声を一意に定めず、分離音声のあらゆる可能性を考慮することにより、最終的な音声認識精度を向上させることができる技術を開発した。本研究の核心は、ベイズモデルに基づく最新の音源分離手法を用いて、分離音声のスペクトログラムを確率的にギブスサンプリングすることにある。このようにして得られた各分離音声に対して、独立に音声認識を行い、認識結果をROVER法で統合する方式を考案した。ベイズモデルの観点からは、分離音声を積分消去していることに相当するが、音声認識結果に曖昧性がなく(事後分布が非常に急峻)、認識結果の各単語が独立であるという条件のもとで、提案手法が数学的に正しいことを示した。研究成果は、音声認識や音声信号処理に関する国際会議であるInterspeech 2015に採択された。さらなる研究の進展として、本研究の基礎になっている音源分離のためのベイズモデルを改良することに取り組んだ。従来のベイズモデルは、潜在的ディリクレ配分法(LDA)を拡張したものであり、各時間・周波数ビンをある特定の音源に排他的に割り当てるものであった。このモデルに対し、音源信号のスペクトログラムの低ランク性を表現する非負値行列因子分解(NMF)を統合することにより、さらなる音源分離の性能向上が果たせることを予備的な実験により確認した。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
1: 当初の計画以上に進展している
理由
「研究実績の概要」に述べた通り、当初の目標である音声認識精度の改善を達成し、さらに音源分離手法自体の改善自体も進んでいる。
|
今後の研究の推進方策 |
今後は、音源分離手法のオンライン化や残響除去・雑音除去との統合にも取り組む。さらに、音声認識との統合についても研究を進める。
|
次年度使用額が生じた理由 |
研究スケジュールの関係で、当初計画していたよりも旅費が少なく済んだ。
|
次年度使用額の使用計画 |
音源分離の実行には膨大な計算が伴うため、強力な計算サーバの購入を検討している。国際会議に関する旅費や論文誌投稿料も増加する見込みである。
|