2019 Fiscal Year Research-status Report
3次元声道形状と声帯音源の高精度抽出が可能な高品質音声分析変換合成方式の開発
Project/Area Number |
17K00253
|
Research Institution | Meijo University |
Principal Investigator |
坂野 秀樹 名城大学, 理工学部, 准教授 (20335003)
|
Project Period (FY) |
2017-04-01 – 2021-03-31
|
Keywords | 声道断面積関数 / 3次元声道形状 / ケリーの声道モデル / 声帯音源 / FDTD法 / PARCOR係数 / ソースフィルタモデル / 音声分析合成 |
Outline of Annual Research Achievements |
音声信号から1次元の声道形状を推定する手法として、音声信号から抽出したPARCOR係数を用いる方法がある。本研究ではこれを発展させ、音声信号から3次元声道形状を推定する手法について検討している。PARCOR係数により1次元の声道形状を推定する手法には誤差があることから、まずはこの誤差を小さくする必要がある。2019年度は、5母音を対象に、様々な設定で3Dプリンタを用いて1次元の声道模型を造形した上でその音響特性を測定し、この誤差を小さくすることと、PARCOR係数を用いたものとの違いの要因を突き止めるべく検討を進めてきた。これまでに、1)本来は声帯側にある音源を口唇側に配置し出力を声帯側として測定した方が安定して音響測定ができる、2)3Dプリンタ造形時の積層間隔を変えて声道模型を造形しても積層間隔による音響特性の違いはわずか、3)3Dプリンタの造形による膨張が音響特性に多大な影響を与えるため、膨張量を考慮して形状を決定する必要がある、4)特に高域においてFDTD法によるものと3Dプリンタによる声道模型の音響特性が異なる、などの知見が得られている。2018年度までは、1次元FDTD法による検証を中心に行っていたが,2019年度は3次元FDTD法による検証も開始している。3次元FDTD法による検証により、4)の特に高域においてFDTD法によるものと3Dプリンタによる声道模型の音響特性が異なる問題については、その多くは1次元FDTD法によるシミュレーションでは3次元情報の表現が不十分であったことに起因するものであり、3次元FDTD法を用いることによりかなり解消されることが確認された。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
2019年度は,2017年度に導入した3Dプリンタの活用が一層進み、様々な母音の声道模型を様々な設定で作成して音響特性を測定している。1次元FDTD法および3次元FDTD法によるシミュレーションによる音響特性と声道模型による音響特性を比較していくつかの知見が得られた点、そしてこれまで高域において差異が発生していたものが主に1次元FDTD法で表現できなかった3次元的情報に起因するものであり、3次元FDTD法を用いることによってかなり解消されることになった点など、大きな進展が得られたと考えている。PARCOR係数を用いたものとの音響特性の違いについては、調査を続けており、明確な傾向を見出すためにはもう少し検討が必要だと考えているが、何らかの知見は得られる感触はあるのが現状である。一方で、舌形状のモデル化に関する検討、声帯音源の推定精度向上に関する検討については、これまでもある程度想定はしていたものの、十分な進捗が見られていない。舌形状のモデル化に関する実装については、現在急いでプログラムの実装を進めている。声帯音源の推定精度向上については、昨年度より深層学習を利用する方法について検討を進めており、ある程度現状のプログラムに組み込む準備ができたため、実験に取り掛かる予定である。全体としては、一部十分な進捗が見られていない部分があるものの、想定したより早く進捗している部分もあり、全体的として見れば概ね順調に進捗していると考えている。
|
Strategy for Future Research Activity |
舌形状のモデル化に関しては、すでに完成し活用している、声道形状をモデリングするプログラムに組み込むべく実装を進めており、完成まで可能な限り早くこぎ着けるよう努力している。声帯音源の推定精度向上に向けた検討については、2019年度より次の方針で深層学習を用いることとしており、現在、プログラムの動作検証を行っている段階であり、早急に実験を実施できるよう準備を進める。1)基準となる音素の1次元声道形状を作成した後、それに乱数による微少変動を加え、多くの声道形状のバリエーションを作成する。2)この1次元声道形状から、FDTD法により音響特性(フィルタのインパルス応答)を算出する。3)このフィルタに対し、パラメトリックに制御可能な人工的な声帯音源信号を入力し、合成音声信号を生成する。4) 1)~3)の手順により作成した合成音声信号とこの音響信号に対するPARCOR係数を深層学習への入力、元の1次元声道形状と人工的な声帯音源信号のパラメータを正解データとして学習を行う。適切に学習ができれば、音声信号を入力として、1次元声道形状と声帯音源信号のパラメータが推定できることになる。これをさらに推し進め、声道形状を複雑にした場合にも同様のことが可能かについても検証を行っていく。
|
Research Products
(2 results)