研究課題/領域番号 |
21K11965
|
研究種目 |
基盤研究(C)
|
配分区分 | 基金 |
応募区分 | 一般 |
審査区分 |
小区分61010:知覚情報処理関連
|
研究機関 | 九州大学 |
研究代表者 |
鏑木 時彦 九州大学, 芸術工学研究院, 教授 (30325568)
|
研究期間 (年度) |
2021-04-01 – 2024-03-31
|
研究課題ステータス |
完了 (2023年度)
|
配分額 *注記 |
4,160千円 (直接経費: 3,200千円、間接経費: 960千円)
2023年度: 780千円 (直接経費: 600千円、間接経費: 180千円)
2022年度: 1,690千円 (直接経費: 1,300千円、間接経費: 390千円)
2021年度: 1,690千円 (直接経費: 1,300千円、間接経費: 390千円)
|
キーワード | 音声合成 / 代用発声 / 調音運動 / 口唇動画 / 機械学習 / ニューラルネットワーク / 発声障害 / 転移学習 / トランスフォーマー / リアルタイムMRI / 敵対的生成ネットワーク / MRI / 系列変換モデル / 調音観測 |
研究開始時の研究の概要 |
本研究では、喉頭疾患による発声障害者が音声コミュニケーションを維持できるようにするために、発話時の口の動きだけから音声を合成し、意図の伝達を可能にする、代用発声技術を検討する。システムへ入力される発話動作から機械学習によって音声を生成するため、口唇動画とリアルタイムMRIを用いて、複数話者の調音・音声パラレルコーパス作成を行う。さらに、畳み込み層を基としてEnd-to-endで了解性の高い音声を生成する検討を行う。
|
研究成果の概要 |
本研究では、喉頭摘出者が音声コミュニケーションを維持するための代用発声技術を創出することを目的として、口唇運動から音声波形を生成する合成モデルの検討、ならびにそのモデルを機械学習で実現するための音声コーパス作成を行った。合成モデルは低次元の音声特徴量を求めるエンコーダーと、メルスペクトログラムを推定するデコーダーから構成される。実験の結果、口腔の音響特性に加えて、アクセントやイントネーションを形成するピッチパタンを予測可能であり、十分に了解できる音声を合成できた。並行して、音声からリアルタイムMRIで測定した調音運動を復元するモデルを検討した。
|
研究成果の学術的意義や社会的意義 |
喉頭癌などの重度の疾患で喉頭を摘出した場合、その後の一生において日常のコミュニケーションに大きな支障をきたす。喉頭摘出者の代用発声法としては、電気式人工喉頭や食道の粘膜を声帯の代わりに振動させる食道発声などがあるが、それぞれ、抑揚のない機械的な発声になる、胃に空気を取り込むため高齢者では習得が難しいなどの問題がある。超高齢化した社会状況に鑑みても、喉頭疾患によるコミュニケーションの喪失に対処し得る情報技術の創出は不可欠であり、本研究で検討した新しい代用発声技術が意味を持つと考えられる。
|