2018 Fiscal Year Research-status Report
3次元声道形状と声帯音源の高精度抽出が可能な高品質音声分析変換合成方式の開発
Project/Area Number |
17K00253
|
Research Institution | Meijo University |
Principal Investigator |
坂野 秀樹 名城大学, 理工学部, 准教授 (20335003)
|
Project Period (FY) |
2017-04-01 – 2021-03-31
|
Keywords | 声道断面積関数 / 3次元声道形状 / ケリーの声道モデル / 声帯音源 / FDTD法 / PARCOR係数 / ソースフィルタモデル / 音声分析合成 |
Outline of Annual Research Achievements |
音声信号から1次元の声道形状を推定する手法として、音声信号から抽出したPARCOR係数を用いる方法がある。本研究ではこれを発展させ、音声信号から3次元声道形状を推定する手法について検討している。PARCOR係数により1次元の声道形状を推定する手法には誤差があることから、まずはこの誤差を小さくする必要がある。平成30年度は、3Dプリンタを用いて1次元の声道模型を造形した上でその音響特性を測定し、この誤差を小さくすべく検討を進めた。最初に、音響特性の測定において、測定方法による音響特性の違いについて検証を行った。ここでは、声帯側から音源を入力した場合と、口唇側から音源を入力した場合の比較を行い、口唇側からの入力の方が安定して測定できることが明らかとなった。次に、3Dプリンタ造形時の精度に相当する積層間隔を変え声道模型を造形した結果、積層間隔による音響特性の違いはわずかであり、第4フォルマントに相当するスペクトルのピークなど、2kHz以上の高域に違いが出るのみであることが分かった。一方、積層間隔が異なる声道形状の情報から音響特性をFDTD法によって模擬したところ、同様に2kHz以上の高域に違いが見られたが、特に第4フォルマントに相当するスペクトルのピークに違いが見られ、3Dプリンタによる声道模型の場合と異なることが分かった。この原因については、現在調査中である。また、FDTD法による音響特性が声道模型の音響特性とどのように異なるか調査したところ、第4フォルマント以降のピークに大きく違いが見られることが分かった。さらに、3Dプリンタによる声道模型は、造形時に膨張して内径が小さくなっており、この影響で第2フォルマントにおいてもずれが見られることが分かった。現在、PARCOR係数を用いて算出される1次元の声道形状との違いについても分析を進めている。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
平成30年度は、平成29年度に当初の予定よりも早く3Dプリンタを導入できたこともあり、3Dプリンタを用いた研究が想定したよりも進捗した。3Dプリンタを用いて1次元の声道模型を造形し、その声道模型を用いて測定した音響特性と、1次元の声道形状からFDTD法によって模擬した音響特性の違いについて明らかとなった点は大きな進展である。また、3次元声道形状データを可視化したりそのデータからPARCOR係数を算出するツールの開発・改良については順調に進捗している。一方で、平成29年度より検討を進めている声道断面積関数と声帯音源の推定精度向上に関する検討については、ある程度想定はしていたものの、十分な進捗が見られていない。この点については、現在、深層学習を利用する方法について検討を進めている。全体としては、一部十分な進捗が見られていない部分があるものの、想定したより早く進捗している部分もあり、全体的として見れば概ね順調に進捗していると考えている。
|
Strategy for Future Research Activity |
平成29年度より検討している声道断面積関数と声帯音源の推定精度向上に向けた検討をさらに推し進めていく。平成29年度・平成30年度に検討を進めた結果は必ずしも望ましいものではなかったものの、その場合には当初より深層学習を利用することを想定しており、現在、実際に深層学習を利用すべく準備を進めている。深層学習においては、入力データと正解データのペアを大量に用意する必要があるが、ここでは次のような手順によりこれを作成する。1)基準となる音素の1次元声道形状を作成した後、それに乱数による微少変動を加え、多くの声道形状のバリエーションを作成する。2)この1次元声道形状から、FDTD法により音響特性(フィルタのインパルス応答)を算出する。3)このフィルタに対し、パラメトリックに制御可能な人工的な声帯音源信号を入力し、合成音声信号を生成する。この手順により作成した合成音声信号とこの信号に対するPARCOR係数を深層学習への入力、元の1次元声道形状と人工的な声帯音源信号のパラメータを正解データとして学習を行う。適切に学習ができれば、音声信号とそれに対応するPARCOR係数を入力として、1次元声道形状と声帯音源信号のパラメータが推定できることになる。これをさらに推し進め、声道形状を3次元に拡張した場合にも同様のことが可能かについても検証する。 また、検証用に用いる声道形状のMRI撮像データについては、今年度前半に研究代表者1名と学生1名のデータを収録予定である。
|
Research Products
(4 results)