聴覚末梢系数理モデルを用いた嗄声の音響学的特徴の解明
Project/Area Number |
20K20222
|
Research Category |
Grant-in-Aid for Early-Career Scientists
|
Allocation Type | Multi-year Fund |
Review Section |
Basic Section 90130:Medical systems-related
|
Research Institution | Kyoto University |
Principal Investigator |
藤村 真太郎 京都大学, 医学研究科, 特定助教 (50815751)
|
Project Period (FY) |
2020-04-01 – 2024-03-31
|
Project Status |
Granted (Fiscal Year 2022)
|
Budget Amount *help |
¥4,030,000 (Direct Cost: ¥3,100,000、Indirect Cost: ¥930,000)
Fiscal Year 2022: ¥650,000 (Direct Cost: ¥500,000、Indirect Cost: ¥150,000)
Fiscal Year 2021: ¥650,000 (Direct Cost: ¥500,000、Indirect Cost: ¥150,000)
Fiscal Year 2020: ¥2,730,000 (Direct Cost: ¥2,100,000、Indirect Cost: ¥630,000)
|
Keywords | 聴覚末梢系 / 数理シミュレーション / 深層学習 / 聴覚末梢系モデル / 音声障害 / GPGPU / 聴覚情報処理 |
Outline of Research at the Start |
我々が音を知覚、認識する場合には周波数領域の情報のみでなく、その振幅包絡、時間微細構造や位相、これらの変調など時間情報も重要な情報として利用している。本研究ではヒト聴覚末梢系を模した数理モデルを解析のフロントエンドとして用いることで、時間/周波数解像度を両立、すなわち音の時間情報を保持した「音の質感」の表現手法を確立する。 このような聴覚モデルを用いて嗄声を解析し、本質的な嗄声の特徴表現を得ることで音声障害の診断・治療における評価の客観性の向上や新しい診断手法の開発につながる。また同等の手法を機械学習と組み合わせることで、音声・感情認識、雑音抑圧や音源分離など他の音響タスクにも応用が可能である。
|
Outline of Annual Research Achievements |
嗄声や不快音の「質感」をヒトは直感的に評価できるが、従来の調波構造やその包絡を用いた信号処理法ではその特徴を十分に説明できない。本研究の目的は、1)聴覚末梢系の数理モデルを用いて時間領域の情報を高解像度で表現可能な新しい解析手法を開発し、2)嗄声や不快音の「質感」を特徴づける音響学的構造を解明することにある。将来的には本手法を機械学習と組み合わせることで音声認識、感情認識、雑音抑圧や音源分離など他の音響信号処理領域における応用も目指す。 まず解析に有用な情報表現を得るために、聴覚末梢系を蝸牛基底膜および内有毛細胞を減衰自由振動系とし、調和変位を入力とする独自モデルとしてフィルタアレイを設計した。Nvidia社のGPUを搭載するワークステーション上で、CUDA、C#、C++を利用してこのモデルの並列処理を実装し、周波数軸、時間軸とも高密度にシミュレーションすることにより、高い周波数/時間解像度を両立した表現を得る手法を確立した。さらに視覚的表現によるフィードバックを行いながらモデルパラメーターを調節することができるプログラムを作成した。 これらの手法、プログラムにさらに改良を加え、現在遂行中の研究「人工知能(AI)を用いた音声情報に基づく疾患診断支援技術の開発」にて収集した音声データを用いてモデルの基本性能(時間・周波数領域での解像度)の計測を進め、STFTや既存の聴覚フィルタバンクとの特性の比較を行った。現在同様のデータを利用し、音声障害の重症度や病態を推定する深層学習モデルの開発研究途中であり、本聴覚モデルを入力層に組み合わせる手法について実験継続中である。
|
Current Status of Research Progress |
Current Status of Research Progress
3: Progress in research has been slightly delayed.
Reason
深層学習モデルと本聴覚モデルを組み合わせる手法について、現時点では期待する十分な性能向上が得られておらず、実験を継続中である。 深層学習モデルの設計、調整は学習と推論のプロセスを繰り返し試行する必要があり、多大な時間を要する。研究代表者は本研究課題のほかに病院診療業務や他の研究課題の分担研究も担っており、特に2022年度は多くの研究課題が重複したため、本研究の実験に十分な時間を費やすことができなかったことも、研究の進行状況に影響をきたしている。
|
Strategy for Future Research Activity |
深層学習モデルと本聴覚モデルを組み合わせる手法について、上記のとおり設計、パラメーター調整に時間を要していることも事実であるが、現在利用している持続母音データと畳み込みニューラルネットワークおよび学習手法が性能の大枠を決めている可能性があるとも考えており、深層学習モデルおよび学習手法の刷新に取り組む予定である。
|
Report
(3 results)
Research Products
(2 results)