聴覚末梢系数理モデルを用いた嗄声の音響学的特徴の解明

研究課題

研究課題/領域番号	20K20222
研究種目	若手研究
配分区分	基金
審査区分	小区分90130:医用システム関連
研究機関	京都大学
研究代表者	藤村真太郎京都大学, 医学研究科, 助教 (50815751)
研究期間 (年度)	2020-04-01 – 2024-03-31
研究課題ステータス	完了 (2023年度)
配分額 *注記	4,030千円 (直接経費: 3,100千円、間接経費: 930千円) 2022年度: 650千円 (直接経費: 500千円、間接経費: 150千円) 2021年度: 650千円 (直接経費: 500千円、間接経費: 150千円) 2020年度: 2,730千円 (直接経費: 2,100千円、間接経費: 630千円)
キーワード	聴覚末梢系 / 数理モデル / 構音障害 / 数理シミュレーション / 深層学習 / 聴覚末梢系モデル / 音声障害 / GPGPU / 聴覚情報処理
研究開始時の研究の概要	我々が音を知覚、認識する場合には周波数領域の情報のみでなく、その振幅包絡、時間微細構造や位相、これらの変調など時間情報も重要な情報として利用している。本研究ではヒト聴覚末梢系を模した数理モデルを解析のフロントエンドとして用いることで、時間/周波数解像度を両立、すなわち音の時間情報を保持した「音の質感」の表現手法を確立する。このような聴覚モデルを用いて嗄声を解析し、本質的な嗄声の特徴表現を得ることで音声障害の診断・治療における評価の客観性の向上や新しい診断手法の開発につながる。また同等の手法を機械学習と組み合わせることで、音声・感情認識、雑音抑圧や音源分離など他の音響タスクにも応用が可能である。
研究成果の概要	ヒトが直感的に評価する嗄声や不快音の「質感」の特徴解明を目指し、聴覚末梢系の数理モデルを用いて時間領域の情報を高解像度で表現可能な新しい解析手法を開発、GPGPUを用いて解析プログラムを実装した。不快音の質感の特徴を求め、また得られた特徴表現を深層学習の入力として用いる方法などを検討したが、モデルの巨大化など新たな課題が見つかった。一方で提案手法のもたらす時間・周波数分解能を両立した新規表現は、例えば過渡現象を多く含む語音の解析において、子音や半母音などの周波数構造の過渡現象をこれまでにない形で視覚化し解析できることがわかった。
研究成果の学術的意義や社会的意義	本手法がもたらす時間・周波数分解能を両立した表現は、過渡現象を多く含む語音の解析において、既存手法にない特徴表現を可能としており、構音障害の診療において新たな治療・リハビリテーション法につながる可能性がある。

報告書

(4件)

研究成果
(2件)

すべて 2021 2020

すべて雑誌論文 (1件) (うち査読あり 1件) 学会発表 (1件)

[雑誌論文] Classification of Voice Disorders Using a One-Dimensional Convolutional Neural Network2020
- 著者名/発表者名
  Fujimura Shintaro、Kojima Tsuyoshi、Okanoue Yusuke、Shoji Kazuhiko、Inoue Masato、Omori Koichi、Hori Ryusuke
- 雑誌名
  
  Journal of Voice
  
  巻: なし号: 1 ページ: 15-20
- DOI
  10.1016/j.jvoice.2020.02.009
- 関連する報告書
  2021 実施状況報告書
- 査読あり
[学会発表] 聴覚モデルとしてみた病的音声の深層学習2021
- 著者名/発表者名
  藤村真太郎、児嶋剛、大森孝一
- 学会等名
  第122回日本耳鼻咽喉科学会・学術講演会
- 関連する報告書
  2020 実施状況報告書