研究課題/領域番号 |
17J04227
|
研究機関 | 和歌山大学 |
研究代表者 |
山本 克彦 和歌山大学, システム工学研究科, 特別研究員(DC2)
|
研究期間 (年度) |
2017-04-26 – 2019-03-31
|
キーワード | 音声了解度 / 客観評価指標 / 音声強調処理 / 主観評価 |
研究実績の概要 |
本研究の目的は、高い予測精度と利便性を持った音声明瞭度(了解度)予測法を確立することである。この目的を達成するために、聴覚の周波数分析機能と変調周波数分析を反映させたsEPSMに対し、さらに適確な聴覚末梢系特性を導入したdcGC-sEPSMを開発した。本年度はその問題点である「一部の強調処理で生じる予測精度の低下」 と「入力信号の前処理による利便性の低下」を解決するために、以下の手順に沿って研究を実施した。 1. 振幅包絡の相関を考慮した信号対雑音比(SNRenv)の計算方法の検討:本段階では、dcGC-sEPSMの予測精度向上のため、当初計画した振幅包絡の相関による方法を検討した。しかし、これでは強調音声の予測精度が向上しないことがわかった。これに代わる振幅包絡信号のパワーを正規化する手法を提案し、向上させられることを示した。 2. 比較用信号の雑音を音声に置き換えた音声明瞭度予測法の検討:本段階では、dcGC-sEPSMに含まれる聴覚モデル機構はそのままに、残留雑音信号を原音声(クリーン音声)に置き換えた音声了解度予測法(GEDI)を提案した。GEDIでは、強調音声と参照音のクリーン音声の振幅包絡信号間における差分の時間系列を“歪み信号”として定義し、その信号対歪み比(SDRenv)を計算することで音声了解度を予測する。参照音が明確に定義され容易に入手できるため、実用的に使用しやすい評価指標となり、当初の目的を達成することができた。 3. 評価法の評価、ほかの客観的評価指標との比較:本研究では、古典的なスペクトル減算法や最新のウィナーフィルタ型の雑音抑圧法を適用した強調音声に関して、聴取実験を実施し、その後提案手法で客観評価した。結果として、提案手法は近年提案された客観的評価指標(STOIやHASPI)よりも精度良く聴取実験結果を説明できることを示した。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
研究代表者が発明した音声了解度予測法GEDIは、従来の聴覚的視点だけでなく工学的視点からの計算手法を導入した独創性の高いものである。そのため早急に特許申請を行い、その後のInterspeech 2017(音声系のトップレベルの国際会議)にてGEDIの詳細や比較実験で従来法に対して優位性を示した。さらに、評価対象として雑音条件を増やして聴取実験を行い、GEDIと改良版GEDIおよびHASPIでの客観評価の結果を実施し、Interspeech 2018への国際会議資料の投稿を行なうことができた(査読中)。一方、その前に提案したdcGC-sEPSMの結果は論文にまとめて学術雑誌に投稿中で、現在条件付き採録の状況である。
|
今後の研究の推進方策 |
平成30年度は研究範囲を拡大し、複数の雑音条件や強調処理に対応できる手法の開発を目指し、GEDIのさらなる改良を進める。優先事項として、GEDIを多重時間解像度版として拡張することで、実環境を想定した非定常な雑音下でも聴取実験の結果を精度良く予測できる音声了解度予測法の確立を目指す。 さらに、GEDIに難聴者の聴覚特性を組み込むことで、難聴者の聴取実験の結果も精度良く予測できることを目指し、GEDIの改良や聴取実験の準備を進めている。しかし、老人性難聴者の聴覚特性や認知能力には個人差があるため、実験の統制が難しい。そこで、本研究では初期検討として、模擬難聴処理を施した音声を健聴者に聴取してもらうことで、実験データの収集や新規音声了解度予測法開発のための調査・考察を行う。 GEDIの改良を進めるとともに、現状版のGEDIを公開パッケージとして配布することを進める。GEDIに関しては既に特許出願済みであり、この申請が公知された時点で共同研究先と協議のうえ公開を進める。 これらの一連の課題を達成するとともに、自身の研究内容を国内学会と国際会議にて発表する。また、海外学術誌への論文掲載を目指す。最後に、これまでの研究内容を博士論文としてまとめる。
|