2017 Fiscal Year Research-status Report
3次元声道形状と声帯音源の高精度抽出が可能な高品質音声分析変換合成方式の開発
Project/Area Number |
17K00253
|
Research Institution | Meijo University |
Principal Investigator |
坂野 秀樹 名城大学, 理工学部, 准教授 (20335003)
|
Project Period (FY) |
2017-04-01 – 2021-03-31
|
Keywords | 声道断面積関数 / 3次元声道形状 / ケリーの声道モデル / 声帯音源 / FDTD法 / PARCOR係数 / 音声分析合成 / ソースフィルタモデル |
Outline of Annual Research Achievements |
平成29年度は、PARCOR係数による声道断面積関数の精度向上に取り組んだ。精度を評価するためには、まず、正解として利用する声道断面積関数が必要であり、以下の2種類を用意した。(a)3次元声道形状データから直接算出される声道断面積関数。これは3次元声道形状の本来の声道断面積関数に相当するため、物理的な形状としての正解と言って良い。ここでは、すでに研究室で作成済みであった3次元声道形状データを可視化するツールを改変し、中心線を自動算出するようにした上で、必要に応じて修正を行えるよう改良を行った。(b)3次元声道形状データを用い、FDTD法によって算出された伝達特性からPARCOR係数を求めた後、計算される声道断面積関数。音声の合成を行うことを考えた場合には、この声道断面積関数が最良ということになる。(a)と(b)の形状の比較から、ケリーの声道モデルによる声道断面積関数がどの程度本来の声道断面積関数に近いのかを評価した。その結果、ある程度の形状の一致はあるものの、異なっている部分も多いことが明らかとなった。 次に、正解の声帯音源のデータとなる様々な周波数特性を持つ人工的な声帯音源信号を作成した。ここでは、声帯音源信号としてインパルス列、三角波、鋸歯状波などを用いた。FDTD法で算出した声道フィルタに対し、この声帯音源信号を入力することで音声が合成できるため、この合成音に対し、適応逆フィルタ法を用いて、PARCOR係数による声道断面積関数と残差信号を算出する実験を行った。そして、得られる声道断面積関数が正解にどの程度近いのか、残差信号のスペクトルがどの程度入力した声帯音源信号のスペクトルに近いかを評価した。その結果、適応逆フィルタ法による方法である程度の抽出は可能であるものの、精度は十分であるとは言えないことが明らかとなった。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
PARCOR係数による声道断面積関数の精度向上に関する検討については、評価実験の結果が必ずしも望ましいものではなかった。具体的には、まず、ケリーの声道モデルによる声道断面積関数がどの程度本来の声道断面積関数に近いのかを評価した結果は、ある程度の形状の一致はあるものの、異なっている部分も多いというものであった。そして、人工的な声帯音源信号を用いて、声道断面積関数が正解にどの程度近いのか、残差信号のスペクトルがどの程度入力した声帯音源信号のスペクトルに近いかを評価した結果は、適応逆フィルタ法による方法である程度の抽出は可能であるものの、精度は十分だとは言えないというものであった。これらの結果は、必ずしも望ましいものではないものの、研究前にある程度想定していたものであり、今後、これらの結果を望ましいものに変えるべく研究を進めていく。 一方で、3次元声道形状データを可視化するツールの改良や、3Dプリンタで声道模型を作成する準備等、想定したよりも早く研究が進捗している部分もあり、全体的として見れば概ね順調に進展していると考えている。
|
Strategy for Future Research Activity |
平成30年度は、音声信号からの3次元声道形状の推定について検討していく。推定する3次元声道形状の骨格には、PARCOR係数から算出される声道断面積関数に基づいて音響管を縦続接続したものを用いることとする。これにどのように肉付けをしていくかを検討すべく、まずは、3次元声道形状データを段階的に簡略化した3次元形状データを作成し、そのデータからFDTD法により声道フィルタを生成し、その特性を観察する。そして、これまでの実験と同様に、人工的な声帯音源信号をこの声道フィルタへ入力して合成音を生成するとともに、PARCOR係数による声道断面積関数と残差信号を算出し、その特性についても観察する。 簡略化については、現在の所、次のものを用いることを検討している。声道の曲がりを含まないように直線状にすることによる簡略化や、声道下部に位置する梨状窩による分岐や英語の/l/における舌による口腔内の分岐など、声道内に含まれる分岐を塞ぐことによる簡略化、声道壁の平滑化や断面形状を円に近付ける簡略化である。そして、簡略化を行った場合にFDTD法による声道フィルタや残差信号の特性がどのように変化するか調べる。これらの簡略化によって残差信号が変化する部分をパラメトリックに表現する。また、簡略化したものの代表的な音素のものについては3Dプリンタで声道模型を作成してその音響特性を測定し、FDTD法による結果との比較も行う。
|