2017 Fiscal Year Annual Research Report
Project/Area Number |
17J04380
|
Research Institution | Kobe University |
Principal Investigator |
高島 悠樹 神戸大学, システム情報学研究科, 特別研究員(DC1)
|
Project Period (FY) |
2017-04-26 – 2020-03-31
|
Keywords | 声質変換 |
Outline of Annual Research Achievements |
アテトーゼ型脳性麻痺による構音障がい者にとって、発話行為は身体への負担が大きく、大量の発話を行うことができない。そのため、学習データとして使えるデータ量は限られてくる。構音障がい者音声認識システムの構築のためには学習データの増加、あるいは、モデルパラメータ数の削減が必要となる。 本年度は、学習データ量を擬似的に増加させる手法として、声質変換に着目した。声質変換は、ある話者の声をあたかも別人が発話しているかのように変換する技術である。この技術により、健常者の音声における話者性を構音障がい者に変換することで、構音障がい者の音声データを擬似的に作成しデータ量を増やすことを試みる。 これまでの声質変換は、入力話者と変換先の目標話者が同一テキストから構成される音声を発話する必要があった。さらに、各発話の各時間が音韻的に対応が取れているように、事前に音声を加工処理する必要があった。このようなデータのことをパラレルデータと呼ぶが、構音障がい者の場合には発話スタイルが健常者と大きく異なるため、音韻的な対応関係を取ることが難しい。しかしながら、これまで構音障がい者の声質変換で用いられてきたアルゴリズム、非負値行列因子分解 (non-negative matrix factrization; NMF)では、このパラレルデータを使用してきた。NMFで用いられる変換行列 (辞書)を、非負値タッカー分解 (non-negative Tucker decomposition; NTD)により学習することで、パラレルデータを用いない辞書学習法を提案した。健常者音声による評価実験により、提案するNTD辞書学習法はパラレルデータを使用しないにも関わらず、従来のパラレルデータを用いたNMF辞書学習法ほぼ同等の変換精度が得られることを示した。この研究成果は国際学会に採択され発表を行った。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
アテトーゼ型脳性麻痺による構音障がい者の音声をモデル化するために、限られたデータ量の問題に対処する必要がある。本年度は声質変換により学習データを増加させるアプローチについて取り組むことを計画していた。健常者であれば安定した発話が可能であるが、構音障がい者は、筋肉の不随意運動により安定した発話を行うことができず、その音声は非常に聞き取りづらいものとなる。また、意図した発話内容と実際の発話内容が異なる場合がある、つまり、音の欠落や置換が起こりうる。そのため、健常者の音声との音韻的な対応関係を正確に取ることは難しく、質の高いパラレルデータを用意することは非常に難しい。構音がい者の音声へ応用するためには、パラレルデータを使用しない手法が求められる。従来の構音障がい者声質変換手法として研究が行われてきたNMF声質変換はパラレルデータを使用する。このNMF声質変換は高い自然性を有することが示されており、非パラレル拡張を行うことで、さらに応用の可能性を広げることができると考えられる。そのため、本年度はNMF声質変換をパラレルデータを用いない手法に拡張し、健常者の音声を用いた評価によりその有効性を確認した。今後、構音障がい者の音声を用いた評価を行う予定である。この手法は、本年度目標としていた少量データに対する効果的なアプローチであり、研究がおおむね順調に進展したと考えられる。
|
Strategy for Future Research Activity |
本年度提案したパラレルデータを使用しない声質変換を構音障がい者音声へ応用する。具体的には、健常者の音声における話者性を構音障がい者の話者性へと変換し、障害者音声データの拡充を試みる。そして、作成された音声を学習データとして音声認識システムを構築し、認識性能の評価を行う。また、異なるアプローチとして、構音障がい者の音声を健常者のような聞き取りやすい音声へと変換する枠組みも考えられる。つまり、話者性と音韻性を維持したまま、障害者らしさのみを健常者らしく変換する技術である。音声合成を用いた手法も考えられるが、これはテキストを入力する必要があり、身体の不自由なアテトーゼ型脳性麻痺による構音障がい者にはハードルが高い。声質変換は音声から音声への変換であるため、構音障がい者向けのツールとして適していると考えられる。 また、障がい者音声向けの言語モデルの検討も行う。構音障がい者音声は、筋肉の不随意運動により音素の欠落や置換が起こりうる。そのため、意図した発話内容と実際の発話内容が異なることがあり、この誤りにロバストな言語モデルが求められる。音素レベルの誤り訂正モデルを構築することで、さらなるシステムの性能向上を図る。
|