2015 Fiscal Year Annual Research Report
Project/Area Number |
14J04514
|
Research Institution | Kobe University |
Principal Investigator |
相原 龍 神戸大学, システム情報学研究科, 特別研究員(DC1)
|
Project Period (FY) |
2014-04-25 – 2017-03-31
|
Keywords | 構音障がい / 声質変換 / 脳性麻痺 / アテトーゼ現象 / 不特定話者 |
Outline of Annual Research Achievements |
声質変換は,ある話者の声をあたかも別人が発話しているかのように変換する技術である.アテトーゼ型脳性麻痺による構音障がい者の不明瞭な発話を,この声質変換技術を用いて聞き取りやすく変換することが本研究の目標である.声質変換技術はテキスト認識を行わない,音声から音声へ変換するシステムであるため,手足の動きが不自由な発話障がい者にとっても使いやすい技術であると考えられる. 本年度は,「声質変換技術における学習データの削減」を目標として研究を行った.これまでの声質変換においては,入力話者と変換先の目標話者の,同一テキストから構成される215単語あるいは50文の発話データがそれぞれ学習データとして必要であった.アテトーゼ型脳性麻痺による構音障がい者にとって,発話行為そのものが身体への負担となるため,学習データ量を削減することは実用化のために必要不可欠である.本年度は辞書適応と不特定話者声質変換の2つの手法を提案した. 辞書適応手法では,これまで声質変換辞書に必要であった学習でデータを,行列分解を用いた辞書適応を行うことで,わずか10単語まで削減することに成功した.この研究成果は健常者6名のデータベースで評価実験を行い,1件の国際学会で発表され,学術論文誌EURASIP Journalに採録された. さらに,入力・出力話者の学習データを必要としない不特定話者声質変換を提案した.これまで声質変換で必要であった入力・出力話者の辞書を,それらを含まない多数話者の辞書で近似する手法である.今回は,これまで用いてきた辞書ベースの手法を拡張し,不特定話者声質変換を実現した.この研究成果は,音声信号処理において世界最大級の国際学会INTERSPEECH2016において口頭発表を行い,論文誌IEEE/ACM Trans.へ採録された.
|
Current Status of Research Progress |
Current Status of Research Progress
1: Research has progressed more than it was originally planned.
Reason
身体の動きが不自由なアテトーゼ型構音障がい者に応用される声質変換技術において,「学習データの削減」を主な目標として研究に取り組み,2つの異なる手法を提案した. 1つ目の行列分解による辞書適応手法は,声質変換に必要な辞書を作成するのに必要な学習データ量のする削減である.従来必要とされてきた215単語あるいは50文の発話データを,行列分解を持ちた辞書適応手法により10単語まで削減することができた.この研究成果は1件の国際学会で発表され,学術論文誌EURASIP Journalに採録された. 2つ目は入力・出力話者の学習データを必要としない不特定話者声質変換を提案した.これまで声質変換で必要であった入力・出力話者の辞書を,それらを含まない多数話者の辞書で近似する手法である.この研究成果は,音声信号処理において世界最大級の国際学会INTERSPEECH2016において口頭発表を行い,論文誌IEEE/ACM Trans.へ採録された. 以上,2つの手法により,学習データの削減という目標はほぼ達成することできた. また,聴覚障がい者を対象とした音声認識手法の研究,雑音環境下におけるマルチモーダル声質変換,無音声の唇動画像から音声を復元する試み,アテトーゼ型脳性麻痺による構音障がい者を対象とした音声認識による家電操作システムなど,関連するテーマに幅広く取り組んだ.1年間で国際学会において6件の発表を行ったことは特筆に値し,本年度採録された学術論文が共著を含め5本を数えることと合わせて,期待以上の進展があったといえる.
|
Strategy for Future Research Activity |
平成26年度は,「声質変換技術における学習データの削減」を目標として研究を行った.これまでの声質変換においては,入力話者と変換先の目標話者の,同一テキストから構成される215単語あるいは50文の発話データがそれぞれ学習データとして必要であった.アテトーゼ型脳性麻痺による構音障がい者にとって,発話行為そのものが身体への負担となるため,学習データ量を削減することは実用化のために必要不可欠である.そこで,入力・出力話者の学習データを必要としない不特定話者声質変換を提案し,健常者においてその有効性を示した. 平成27年度前期は,この不特定話者声質変換を障がい者に応用することを目標とする.これまで,特定話者声質変換のみを対象に研究されてきた障がい者のための声質変換手法が不特定話者声質変換へと拡張されることで,声質変換システムを使用する障がい者の負担が軽減されると考えられる.障がい者音声は,健常者音声と比較して子音が不明瞭になる傾向がある.そのため,健常者で用いられてきた発話辞書を障がい者に特化した発話辞書を構築する必要がある.障害がい者の多くの発話データを収集し,その発話傾向を取り入れることで障がい者辞書の構築法を研究する. 平成27年度後期は,障がい者発話のリズム変換を研究する.健常者と比較して,障がい者の発話は発話リズムの変動が大きくなりやすいことが知られており,文章単位の発話の場合,この発話リズム変動が聞き取りにくさの原因となっている.現在,非ネイティブによる英語発話のリズムに関する研究が進められており,行列分解を用いた手法が非ネイティブによる英語発話リズム変換に応用されている.この手法を障がい者に応用することで,発話リズムが聞き取りやすさに及ぼす影響とその補正手法を研究する.
|
Research Products
(14 results)