2020 Fiscal Year Research-status Report
聴覚末梢系数理モデルを用いた嗄声の音響学的特徴の解明
Project/Area Number |
20K20222
|
Research Institution | Kyoto University |
Principal Investigator |
藤村 真太郎 京都大学, 医学研究科, 特定助教 (50815751)
|
Project Period (FY) |
2020-04-01 – 2023-03-31
|
Keywords | 聴覚末梢系 / GPGPU / 深層学習 / 音声障害 |
Outline of Annual Research Achievements |
嗄声や不快音の「質感」をヒトは直感的に評価できるが、従来の調波構造やその包絡を用いた信号処理法ではその特徴を十分に説明できない。本研究の目的は、1)聴覚末梢系の数理モデルを用いて時間領域の情報を高解像度で表現可能な新しい解析手法を開発し、2)嗄声や不快音の「質感」を特徴づける音響学的構造を解明することにある。将来的には本手法を機械学習と組み合わせることで音声認識、感情認識、雑音抑圧や音源分離など他の音響信号処理領域における応用も目指す。 まず解析に有用な情報表現を得ることを最大の目的として、聴覚末梢系を蝸牛基底膜および内有毛細胞を減衰自由振動系とし、調和変位を入力とする独自モデルとしてフィルタアレイを設計した。Nvidia社のGPUを搭載するワークステーション上で、CUDA、C#、C++を利用してこのモデルの並列処理を実装し、周波数軸、時間軸とも高密度にシミュレーションすることにより、高い周波数/時間解像度を両立した表現を得る手法を確立した。 さらに視覚的表現によるフィードバックを行いながらモデルパラメーターを調節することができるプログラムを作成した。このプログラムを利用してモデルパラメータの最適化を進めており、不快音や嗄声、日本語の子音等において、各々特徴的な音響エネルギーのパターンを持つことが確認できつつある。またこの表現を深層学習モデルの入力として、音声障害の判別を行う実験なども進めている。
|
Current Status of Research Progress |
Current Status of Research Progress
3: Progress in research has been slightly delayed.
Reason
モデルの実装と実験ログラムの作成については順調に進展している。一方で世界的半導体不足等の制限により計算機サーバーの仕様調整、調達に時間がかかったことから、モデル基本性の評価と最適化についてはやや遅れがみられる。
|
Strategy for Future Research Activity |
現在作成しているプログラムを利用して、モデルの基本性能(時間・周波数領域での解像度)の計測を進め、STFTや既存の聴覚フィルタバンク(ガンマチャープフィルタバンク等)との特性の比較を行う。また評価関数や視覚的に示される時間周波数領域での表現をフィードバックし、基本的なモデル最適化を試みる。また実音声を用いた解析結果に基づく最適化も進めていく。
|
Causes of Carryover |
新型コロナウイルス感染拡大の影響により、学会出張や実験補助のための雇用等が難しくなり、予算執行が遅れているため。
|