最終年度は、これまでの音声の非言語情報のモデル化とモデルによる非言語情報の変換と強調に関する研究をまとめ、今後の研究発展のための調査や学外発表をおこなった。具体的には、2件の国際学会発表および8件の国内学会・研究会で研究の成果を発表した。 昨年度までの研究で声質変換手法として用いてきたボルツマンマシンについて、これまでとは異なる考え方に基づく方法として、ボルツマンマシンの自由エネルギーの最小化による声質変換手法を新たに提案し、国際学会にて発表した。この手法によって、変換元の話者が誰であっても、目標とする話者の声質に変換可能なモデルをボルツマンマシンで実現できるようになった。また、声質における個人性の情報はそれを構成するいくつかの因子からなるという仮定のもと、それらの因子に個人性の情報を分解し、再構築することで、因子による操作が可能な声質変換手法も新たに提案した。この研究成果も国際学会にて発表した。この研究によって、音声の音響特徴量を多変量解析によって多次元空間上で表現し、その空間上の位置と音声の印象との関係を心理実験によって明らかにすることで、特定の印象が想起されやすい音声強調処理法を開発する、という当初の研究計画で想定していたものを、ひとつの深層生成モデルである程度まで実現できることを示せたと言える。 これらの代表的な研究成果のほかにも、近年高精細な画像を生成することが可能なモデルとして注目されている、拡散確率モデルを声質変換に利用することを検討し、一定の効果があることを確認できた。声質変換課題に拡散確率モデルを適用することに関する研究成果や調査結果は、音声コミュニケーションで声質変換技術をより柔軟に利用するための新たな手法の着想や知見につながった。
|