2021 Fiscal Year Research-status Report
聴覚末梢系数理モデルを用いた嗄声の音響学的特徴の解明
Project/Area Number |
20K20222
|
Research Institution | Kyoto University |
Principal Investigator |
藤村 真太郎 京都大学, 医学研究科, 特定助教 (50815751)
|
Project Period (FY) |
2020-04-01 – 2023-03-31
|
Keywords | 聴覚末梢系モデル / 深層学習 / 音声障害 |
Outline of Annual Research Achievements |
嗄声や不快音の「質感」をヒトは直感的に評価できるが、従来の調波構造やその包絡を用いた信号処理法ではその特徴を十分に説明できない。本研究の目的は、1)聴覚末梢系の数理モデルを用いて時間領域の情報を高解像度で表現可能な新しい解析手法を開発し、2)嗄声や不快音の「質感」を特徴づける音響学的構造を解明することにある。将来的には本手法を機械学習と組み合わせることで音声認識、感情認識、雑音抑圧や音源分離など他の音響信号処理領域における応用も目指す。 まず解析に有用な情報表現を得るために、聴覚末梢系を蝸牛基底膜および内有毛細胞を減衰自由振動系とし、調和変位を入力とする独自モデルとしてフィルタアレイを設計した。Nvidia社のGPUを搭載するワークステーション上で、CUDA、C#、C++を利用してこのモデルの並列処理を実装し、周波数軸、時間軸とも高密度にシミュレーションすることにより、高い周波数/時間解像度を両立した表現を得る手法を確立した。さらに視覚的表現によるフィードバックを行いながらモデルパラメーターを調節することができるプログラムを作成した。 前年度までに作成したこれらの手法、プログラムにさらに改良を加えて利用し、現在遂行中の研究「人工知能(AI)を用いた音声情報に基づく疾患診断支援技術の開発」にて収集した音声データを用いてモデルの基本性能(時間・周波数領域での解像度)の計測を進め、STFTや既存の聴覚フィルタバンクとの特性の比較を行った。また同データを利用し、音声障害の重症度や原因を推定するディープニューラルネットワークモデルを現在開発中であり、同ニューラルネットワークの入力としてみた場合の最適化について、現在併せて検討を進めている。
|
Current Status of Research Progress |
Current Status of Research Progress
3: Progress in research has been slightly delayed.
Reason
今年度までに収集した音声データによるパラメーター調整、モデル性能評価については順調実験を実施することができている。前年度計算機サーバーの仕様調整、調達に時間がかかったことから、ディープニューラルネットワークモデルは開発途上にあり、計画全体としては遅れがみられる。
|
Strategy for Future Research Activity |
ディープニューラルネットワークモデルを開発を継続し、本手法により得た特徴表現と組み合わせることによりその性能や学習済みモデルの内部構造について解析する。また同モデルにおける本特徴表現の役割として、カオス時系列解析等の視点からも検討を行う予定である。
|
Causes of Carryover |
新型コロナウイルス感染拡大の影響により、学会出張や実験補助のための雇用等が難しくなり、予算執行が遅れているため
|
Research Products
(1 results)