Project/Area Number |
21K11965
|
Research Category |
Grant-in-Aid for Scientific Research (C)
|
Allocation Type | Multi-year Fund |
Section | 一般 |
Review Section |
Basic Section 61010:Perceptual information processing-related
|
Research Institution | Kyushu University |
Principal Investigator |
|
Project Period (FY) |
2021-04-01 – 2024-03-31
|
Project Status |
Completed (Fiscal Year 2023)
|
Budget Amount *help |
¥4,160,000 (Direct Cost: ¥3,200,000、Indirect Cost: ¥960,000)
Fiscal Year 2023: ¥780,000 (Direct Cost: ¥600,000、Indirect Cost: ¥180,000)
Fiscal Year 2022: ¥1,690,000 (Direct Cost: ¥1,300,000、Indirect Cost: ¥390,000)
Fiscal Year 2021: ¥1,690,000 (Direct Cost: ¥1,300,000、Indirect Cost: ¥390,000)
|
Keywords | 音声合成 / 代用発声 / 調音運動 / 口唇動画 / 機械学習 / ニューラルネットワーク / 発声障害 / 転移学習 / トランスフォーマー / リアルタイムMRI / 敵対的生成ネットワーク / MRI / 系列変換モデル / 調音観測 |
Outline of Research at the Start |
本研究では、喉頭疾患による発声障害者が音声コミュニケーションを維持できるようにするために、発話時の口の動きだけから音声を合成し、意図の伝達を可能にする、代用発声技術を検討する。システムへ入力される発話動作から機械学習によって音声を生成するため、口唇動画とリアルタイムMRIを用いて、複数話者の調音・音声パラレルコーパス作成を行う。さらに、畳み込み層を基としてEnd-to-endで了解性の高い音声を生成する検討を行う。
|
Outline of Final Research Achievements |
In this project, a model for synthesizing speech from motion of the lips was constructed as a tool of substitute speech, that can help laryngectomees maintain voice communication, and a set of Japanese speech corpus was gathered for training the model. The model comprises an encoder, by which low-dimensional speech features are extracted from the motion input, and a decoder, by which mel-spectrogram is estimated as the output. As a result of experiments, the model is capable of estimating, not only the acoustic characteristic of the vocal tract, but also the pitch conture for expressing the accent and intonation. The synthesized speech was intelligible. In addition, a model was studied for estimating the motion of the vocal tract, which was measured using a real time MRI, from speech.
|
Academic Significance and Societal Importance of the Research Achievements |
喉頭癌などの重度の疾患で喉頭を摘出した場合、その後の一生において日常のコミュニケーションに大きな支障をきたす。喉頭摘出者の代用発声法としては、電気式人工喉頭や食道の粘膜を声帯の代わりに振動させる食道発声などがあるが、それぞれ、抑揚のない機械的な発声になる、胃に空気を取り込むため高齢者では習得が難しいなどの問題がある。超高齢化した社会状況に鑑みても、喉頭疾患によるコミュニケーションの喪失に対処し得る情報技術の創出は不可欠であり、本研究で検討した新しい代用発声技術が意味を持つと考えられる。
|