研究課題/領域番号 |
21H04900
|
研究機関 | 明治大学 |
研究代表者 |
森勢 将雅 明治大学, 総合数理学部, 専任准教授 (60510013)
|
研究分担者 |
田中 章浩 東京女子大学, 現代教養学部, 教授 (80396530)
齋藤 大輔 東京大学, 大学院工学系研究科(工学部), 准教授 (40615150)
高道 慎之介 東京大学, 大学院情報理工学系研究科, 講師 (90784330)
|
研究期間 (年度) |
2021-04-05 – 2025-03-31
|
キーワード | 音声情報処理 / 音声合成 / 声質変換 / 音声知覚 / 音声デザイン |
研究実績の概要 |
2023年度は,ビスポーク音声デザインのプロトタイプとして,点ピッチの考え方に基づき,モーラ単位でピッチ情報粗く制御できつつ自然な音声を生成可能なDNN音声合成を実装した.ピッチ制御についてはピッチ軌跡そのものをデザインすることも可能であるが,「ビスポーク」的なデザイン法として,ユーザーは大雑把なピッチ情報のみ与えることを重視している.合成音声の品質と目的のイントネーションを再現できるかについて主観評価を実施し,提案する方法が既存の方法よりも高い性能であることを確認した. 次いで,音声デザインインタフェースの検討として,音声の分析からサポートするGUIについて検討を進めた.このGUIは,音声研究の専門家に向けて全てのパラメータを細かくチューニングできるものではなく,音声加工の初心者が試行錯誤的にピッチなどを加工できることをコンセプトとしている.様々な環境で多くの被験者に対する利用実績とフィードバックに基づいて改良を加えたものを暫定的なインタフェースとして採用した.本GUIについては学術論文として採録された. 最後に,新たな音声評価法について検討した.現時点での音声合成の音質評価では,多くの論文でMOS (mean opinion score)が採用されている.MOSによる主観評価では音質差の検出力が低いため,特に合成音声の品質向上が著しく昨今では膨大な被験者数に基づく評価事例が増えつつあり,評価にかかるコストが増大している.そこで本課題では,新たに高品質な合成音声に対し,MOSよりも少人数で差の検出が可能な方法を提案した.同じ音声群を用いた評価をMOSと提案法とで実施し,同人数の評価結果であれば提案法のほうが差をより顕著に検出できることを確認した. 上記が代表的な成果であるが,合成音声,音声コーパス作成,声質変換,音声知覚実験に関する成果報告も多数実施してきた.
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
目標とする音声デザインの技術的な課題について,ピッチ情報について最低限の条件をクリアしたプロトタイプの構築を完了した.音声デザインに向けたインタフェース開発も論文として採録されており,当初定めた目標は順調に達成しつつある.加えて,コーパス構築,声質変換,音声知覚評価など多面的な取り組みを実施し,それぞれについて学会で発表するなど幅広く研究を進めていると考えている.
|
今後の研究の推進方策 |
本プロジェクトは2024年度が最終年度であるため,これまで検討してきた様々な内容について,国際会議発表や学術論文として採録されることを目指す.具体的に,ビスポーク音声デザインのプロトタイプは簡単な評価を実施しているにとどまっており,学会でプロトタイプを発表するのみである.同様に,他の検討内容も学術論文に至っていないものが複数ある.学術論文にするためには新たに大規模な主観評価実験を必要とするため,本年度の序盤は主観評価を中心に実施し,査読付きの国際会議や学術論文に投稿し,採録されることを目指す.
|