研究課題/領域番号 |
25330182
|
研究種目 |
基盤研究(C)
|
研究機関 | 山形大学 |
研究代表者 |
近藤 和弘 山形大学, 理工学研究科, 准教授 (10312753)
|
研究期間 (年度) |
2013-04-01 – 2016-03-31
|
キーワード | 音声了解度 / 推定 / 機械学習 / 雑音 / 音声特徴量 |
研究概要 |
携帯電話、IP電話等の普及で様々な音質、環境での音声通信が行われるようになっているが、必ずしも目的に合致した品質が確保されているとは限らない。特に音声通信においては正確に発話内容が伝わっていることが重要であり、音声了解度がこれを測る最も適切な尺度である。しかし音声了解度の測定には被験者を用いて相当量の音声標本を評価することが必要である。そこで、本研究では実際通信中の音声信号より了解度に関連する特徴量を算出し、この特徴量からあらかじめ学習した対応関係から了解度を高精度で推定することを目標とした。 本年度はまず18種類の特性が大きく異なる雑音をその特徴によりクラスタ化する。クラスタ化は雑音が了解度に与える影響傾向の差により行う。この時最適なクラスタ数も合わせて検討し、まずは3クラスタ程度が適当であることを見出した。 次に了解度を高精度で推定する雑音混入音声信号の特徴量を検討した。特徴量としては音声のスペクトル特性、基本周波数、線形・非線形歪などを試した。この特徴量を用いて機械学習を用いて未知音声特徴量から了解度を推定する関数を学習し、未知雑音混入音声の了解度推定を試みた。機械学習法はRBFカーネルを用いたサポートベクトル回帰(SVR)が最も性能がよく、主観音声了解度と推定了解度間の平均2乗誤差(RMSE)は他の従来の推定よりも有意に低く、0.15程度(フルスケールの15%)まで抑えることができた。また実際求めた了解度と推定了解度の間の相関も良好であり他の方式に比べ有意に高いほぼ0.9程度が確認できた。これはSVRの汎化性能が他の学習法に比べて極めて高いためと思われる。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
未知雑音混入音声に対し主観音声了解度と推定了解度間の平均1乗誤差RMSE 10%程度、相関を90%程度としてきた。これに対し、RMSE 15%, 相関0.9を達成し、相関はほぼ目標達成したが、RMSEに関しては目標に近い性能を確認できた。以上により、提案方式の原理的な有効性が確認されたと考えている。この方式の細部の最適化でさらに性能向上が見込める感触も得ている。
|
今後の研究の推進方策 |
引き続き特徴量を見直し、RMSEを目標の10%程度を目指したい。 また提案方式の以下の発展も考えている。 (1)原音を用いずに推定を行う拡張。これにより遠端で原音を用意しないでも、実時間音声信号に対しても了解度推定が可能となり、了解度の常時監視が可能となる。 (2)立体音響の了解度推定への拡張。音声了解度は音声再生位置と騒音源位置の関係を大きく受けることが知られている。これを利用し、各音源位置による了解度を学習し、未知音源位置に対しても了解度を推定する方法を検討する。
|
次年度の研究費の使用計画 |
当初総合音質推定ソフトとして900千円の支出を予定していたが、その後の調査でこのソフトが当初予定していた精度が確保できないこと、また使い勝手が予想より悪いことが判明し、このソフトの導入を中止した。 総合音質推定ソフトの一部の性能を自分で開発することにする。このため、開発用ワークステーションとその開発ソフトを26年度に予定する。 総合音質推定ソフト開発用ワークステーション Dell Precision 250千円(山形大学)、ソフト開発用ソフトウェア マイクロソフト 55千円、旅費 20千円 東京往復
|