2022 Fiscal Year Research-status Report

聴覚末梢系数理モデルを用いた嗄声の音響学的特徴の解明

Research Project

Project/Area Number	20K20222
Research Institution	Kyoto University
Principal Investigator	藤村真太郎京都大学, 医学研究科, 特定助教 (50815751)
Project Period (FY)	2020-04-01 – 2024-03-31
Keywords	聴覚末梢系 / 数理シミュレーション / 深層学習
Outline of Annual Research Achievements	嗄声や不快音の「質感」をヒトは直感的に評価できるが、従来の調波構造やその包絡を用いた信号処理法ではその特徴を十分に説明できない。本研究の目的は、1)聴覚末梢系の数理モデルを用いて時間領域の情報を高解像度で表現可能な新しい解析手法を開発し、2)嗄声や不快音の「質感」を特徴づける音響学的構造を解明することにある。将来的には本手法を機械学習と組み合わせることで音声認識、感情認識、雑音抑圧や音源分離など他の音響信号処理領域における応用も目指す。まず解析に有用な情報表現を得るために、聴覚末梢系を蝸牛基底膜および内有毛細胞を減衰自由振動系とし、調和変位を入力とする独自モデルとしてフィルタアレイを設計した。Nvidia社のGPUを搭載するワークステーション上で、CUDA、C#、C++を利用してこのモデルの並列処理を実装し、周波数軸、時間軸とも高密度にシミュレーションすることにより、高い周波数/時間解像度を両立した表現を得る手法を確立した。さらに視覚的表現によるフィードバックを行いながらモデルパラメーターを調節することができるプログラムを作成した。これらの手法、プログラムにさらに改良を加え、現在遂行中の研究「人工知能(AI)を用いた音声情報に基づく疾患診断支援技術の開発」にて収集した音声データを用いてモデルの基本性能(時間・周波数領域での解像度)の計測を進め、STFTや既存の聴覚フィルタバンクとの特性の比較を行った。現在同様のデータを利用し、音声障害の重症度や病態を推定する深層学習モデルの開発研究途中であり、本聴覚モデルを入力層に組み合わせる手法について実験継続中である。
Current Status of Research Progress	Current Status of Research Progress 3: Progress in research has been slightly delayed. Reason 深層学習モデルと本聴覚モデルを組み合わせる手法について、現時点では期待する十分な性能向上が得られておらず、実験を継続中である。深層学習モデルの設計、調整は学習と推論のプロセスを繰り返し試行する必要があり、多大な時間を要する。研究代表者は本研究課題のほかに病院診療業務や他の研究課題の分担研究も担っており、特に2022年度は多くの研究課題が重複したため、本研究の実験に十分な時間を費やすことができなかったことも、研究の進行状況に影響をきたしている。
Strategy for Future Research Activity	深層学習モデルと本聴覚モデルを組み合わせる手法について、上記のとおり設計、パラメーター調整に時間を要していることも事実であるが、現在利用している持続母音データと畳み込みニューラルネットワークおよび学習手法が性能の大枠を決めている可能性があるとも考えており、深層学習モデルおよび学習手法の刷新に取り組む予定である。
Causes of Carryover	最終年度に実施中の実験にやや遅れがみられていることと、コロナ禍の影響により学会の多くがハイブリッド開催となっており近隣の学会のみ現地参加したことなどから、実際の支出額が計上していた予定額よりも少なくなった。次年度使用額については、実験計画の遅滞をとりもどすため計算資源の増強および、成果物の発表(学会発表、論文投稿)の費用として用いる予定である。