A Study on Algorithms to Improve Intelligibility of Glossectomy Patients' Speech Using Deep Neural Networks
Project/Area Number |
18K11376
|
Research Category |
Grant-in-Aid for Scientific Research (C)
|
Allocation Type | Multi-year Fund |
Section | 一般 |
Review Section |
Basic Section 61010:Perceptual information processing-related
|
Research Institution | Okayama University |
Principal Investigator |
Abe Masanobu 岡山大学, ヘルスシステム統合科学学域, 教授 (70595470)
|
Co-Investigator(Kenkyū-buntansha) |
原 直 岡山大学, ヘルスシステム統合科学研究科, 助教 (50402467)
皆木 省吾 岡山大学, 医歯薬学総合研究科, 教授 (80190693)
|
Project Period (FY) |
2018-04-01 – 2022-03-31
|
Project Status |
Completed (Fiscal Year 2021)
|
Budget Amount *help |
¥4,290,000 (Direct Cost: ¥3,300,000、Indirect Cost: ¥990,000)
Fiscal Year 2020: ¥650,000 (Direct Cost: ¥500,000、Indirect Cost: ¥150,000)
Fiscal Year 2019: ¥1,040,000 (Direct Cost: ¥800,000、Indirect Cost: ¥240,000)
Fiscal Year 2018: ¥2,600,000 (Direct Cost: ¥2,000,000、Indirect Cost: ¥600,000)
|
Keywords | 声質変換 / 音声合成 / 舌亜全摘出者 / DNN / 知識蒸留 / 舌がん / 音韻明瞭性の改善 / 口唇情報 / 音韻明瞭せいの改善 / 音声明瞭性 / 深層学習 / 口唇形状 / 舌癌 / マルチモダル |
Outline of Final Research Achievements |
In this study, we investigate voice conversion algorithms to improve intelligibility of speech uttered by a patient who has articulation disorders because of wide glossectomy and/or segmental mandibulectomy. To achieve real time processing, voice conversion directly modifies waveform using spectrum differential between a healthy speaker and a glossectomy speaker. The spectrum differential is estimated by Deep Neural Networks(DNN). To improve the performance, we proposed to use lip shapes as auxiliary inputs and to introduce knowledge distillation approach to make best use of phoneme labels as auxiliary inputs. Experimental results showed that both approaches work well, and phoneme labels with knowledge distillation has better performance than the usage of lip shapes.
|
Academic Significance and Societal Importance of the Research Achievements |
音声はコミュニケーションの手段としてばかりでなく,人間としての尊厳を保ち豊かな生活を送るうえで重要な役割を果たしている.舌,顎,唇(以下,調音器官)の癌治療のために調音器官を切除して明瞭な音声を発声できなくなることは日常生活に測り知れない損失をもたらす.本研究では,癌治療によって舌を切除したために,音声を明瞭に発声できなくなった患者を対象に,患者が健常であった頃の音声を取り戻すための技術を提案し,その有効性を示した.2017年の国立がん研究センターの推計によれば,口腔・咽頭癌の患者数は約22,800人(癌患者の約2%を占める)であり,これらの患者が声を取り戻せる可能性を示した.
|
Report
(5 results)
Research Products
(9 results)