| Project/Area Number |
24K21123
|
| Research Category |
Grant-in-Aid for Early-Career Scientists
|
| Allocation Type | Multi-year Fund |
| Review Section |
Basic Section 90130:Medical systems-related
|
| Research Institution | Osaka University |
Principal Investigator |
細田 侑也 大阪大学, 大学院基礎工学研究科, 助教 (00964107)
|
| Project Period (FY) |
2024-04-01 – 2027-03-31
|
| Project Status |
Granted (Fiscal Year 2024)
|
| Budget Amount *help |
¥4,680,000 (Direct Cost: ¥3,600,000、Indirect Cost: ¥1,080,000)
Fiscal Year 2026: ¥1,560,000 (Direct Cost: ¥1,200,000、Indirect Cost: ¥360,000)
Fiscal Year 2025: ¥1,560,000 (Direct Cost: ¥1,200,000、Indirect Cost: ¥360,000)
Fiscal Year 2024: ¥1,560,000 (Direct Cost: ¥1,200,000、Indirect Cost: ¥360,000)
|
| Keywords | 構音障害 / 音声認識 / 音声解析 / 遠隔医療 / 診断システム / 音声処理 / データ生成 |
| Outline of Research at the Start |
本研究では通話音声から構音障害を診断する頑健性・実用性・信頼性に優れたシステム基盤技術を構築して地域医療の負担を緩和することを目指す.現状の課題として,①通話音声に含まれる外乱への頑健性が低いこと,②システムを構築するデータセットの収録環境に依存しやすく実用性が低いこと,③診断の根拠が不透明で信頼性が低いことが挙げられる.そこで,Ⅰ)特徴量を総合的に解析して頑健性を高めること,Ⅱ)データセットを網羅するように生成された音声でシステムを構築して実用性を高めること,Ⅲ)根拠となる特徴量と症状の関係性を明らかにして信頼性を高めることに取り組む.
|
| Outline of Annual Research Achievements |
1. 構音障害患者の音声収録 先天的な脳性まひによる構音障害をわずらう被験者2名を対象として音声収録実験を実施した.舌の機能や口腔の状態を明らかにするために,長母音・短母音・子音ペアデータ・コーパス文の読み上げテキストを使用した.同様の内容で,健常話者10名に対しても音声収録実験を実施した.実験の結果,同じ収録機材を用いていても,健常話者と異なり調波構造の乱れや高周波帯域の減衰などの歪みが患者音声で生じていることを確認した.また,患者ごとに構音障害の傾向や声の特性が異なることが明らかになった.そのため,頑健な診断システムを構築するためには,患者の個人性も反映する必要があることが示唆された. 2. 構音障害患者のための音声認識モデルの構築 患者の声の特性を再現した音声データセットの構築に取り組んだ.本手法では,音声収録実験で得られたいくつかの音声サンプルを参考にして,患者の声の特性を再現するように健常話者の音声に対して信号処理で歪みを加える.そうすることで,患者の肉体的負担を最小限におさえながら,疑似的に音声データセットを生成することが実現した.生成した音声データセットを用いて,音声認識モデルのファインチューニングを実施した.その結果,その人の声の特性を再現した音声データセットを用いることで,患者音声の認識精度が向上した.また,異なる患者の声の特性を再現した音声データセットを用いたとき,認識精度が低下した.したがって,本手法を活用することにより,声の特性を反映した個人用音声認識モデルが実現することが示唆された.これらの音声認識モデルを導入することで,言いよどみのように言語的な知見に基づく構音障害診断システムの実現が期待できる.
|
| Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
本申請における基盤技術である,構音障害患者のための音声認識モデルの構築が順調に進んでいる.この成果を,健常話者のための一般的な音声認識モデルと認識結果を比較することで,構音障害患者の言い淀みを定量化することができると考えている.また申請当初は,構音障害患者と健常話者の音声の融合で疑似的に音声データセットを生成することを想定していた.しかしながら,患者の声の特徴を直接健常話者の音声に反映するだけで,想定よりも容易な手法で音声データセットの生成が実現している.
|
| Strategy for Future Research Activity |
今後は,キーワード音声のような短時間発話を対象とする音声認識システムを構築することに取り組む.こうすることで,被験者の肉体的な負担を最小限に留めながら,診断モデルの性能を高めることを視野に入れている.また,診断結果の可視化するインターフェースの開発にも着手する.
|