Project/Area Number |
21H04900
|
Research Category |
Grant-in-Aid for Scientific Research (A)
|
Allocation Type | Single-year Grants |
Section | 一般 |
Review Section |
Medium-sized Section 61:Human informatics and related fields
|
Research Institution | Meiji University |
Principal Investigator |
森勢 将雅 明治大学, 総合数理学部, 専任教授 (60510013)
|
Co-Investigator(Kenkyū-buntansha) |
田中 章浩 東京女子大学, 現代教養学部, 教授 (80396530)
齋藤 大輔 東京大学, 大学院工学系研究科(工学部), 准教授 (40615150)
高道 慎之介 慶應義塾大学, 理工学部(矢上), 准教授 (90784330)
|
Project Period (FY) |
2021-04-05 – 2025-03-31
|
Project Status |
Granted (Fiscal Year 2024)
|
Budget Amount *help |
¥42,770,000 (Direct Cost: ¥32,900,000、Indirect Cost: ¥9,870,000)
Fiscal Year 2024: ¥4,680,000 (Direct Cost: ¥3,600,000、Indirect Cost: ¥1,080,000)
Fiscal Year 2023: ¥6,370,000 (Direct Cost: ¥4,900,000、Indirect Cost: ¥1,470,000)
Fiscal Year 2022: ¥11,050,000 (Direct Cost: ¥8,500,000、Indirect Cost: ¥2,550,000)
Fiscal Year 2021: ¥20,670,000 (Direct Cost: ¥15,900,000、Indirect Cost: ¥4,770,000)
|
Keywords | 音声・歌声情報処理 / 音声デザイン / 声質変換 / 音声知覚 / 音声情報処理 / 音声合成 |
Outline of Research at the Start |
最先端のテキスト音声合成は人間とほぼ等価な音声を合成可能であり,すでにスマートスピーカなどで利用されている.一方,同じテキストでも状況により表現を柔軟に加工できる技術は,主にコンテンツ制作の領域において需要がある.本研究は,音声合成研究の新たな方向性として,計算機があたかも職人のようにユーザと共同し,ユーザの音声デザインを助ける技術開発を目指す.心理学分野と連携し,テキスト音声合成や声質変換に適した音声制御のための心理パラメータを明らかにする.ユーザが大まかにデザインした結果を計算機が微調整し,自然な音声を合成する一連の技術を「ビスポーク音声デザイン」として体系化することが狙いである.
|
Outline of Annual Research Achievements |
2023年度は,ビスポーク音声デザインのプロトタイプとして,点ピッチの考え方に基づき,モーラ単位でピッチ情報粗く制御できつつ自然な音声を生成可能なDNN音声合成を実装した.ピッチ制御についてはピッチ軌跡そのものをデザインすることも可能であるが,「ビスポーク」的なデザイン法として,ユーザーは大雑把なピッチ情報のみ与えることを重視している.合成音声の品質と目的のイントネーションを再現できるかについて主観評価を実施し,提案する方法が既存の方法よりも高い性能であることを確認した. 次いで,音声デザインインタフェースの検討として,音声の分析からサポートするGUIについて検討を進めた.このGUIは,音声研究の専門家に向けて全てのパラメータを細かくチューニングできるものではなく,音声加工の初心者が試行錯誤的にピッチなどを加工できることをコンセプトとしている.様々な環境で多くの被験者に対する利用実績とフィードバックに基づいて改良を加えたものを暫定的なインタフェースとして採用した.本GUIについては学術論文として採録された. 最後に,新たな音声評価法について検討した.現時点での音声合成の音質評価では,多くの論文でMOS (mean opinion score)が採用されている.MOSによる主観評価では音質差の検出力が低いため,特に合成音声の品質向上が著しく昨今では膨大な被験者数に基づく評価事例が増えつつあり,評価にかかるコストが増大している.そこで本課題では,新たに高品質な合成音声に対し,MOSよりも少人数で差の検出が可能な方法を提案した.同じ音声群を用いた評価をMOSと提案法とで実施し,同人数の評価結果であれば提案法のほうが差をより顕著に検出できることを確認した. 上記が代表的な成果であるが,合成音声,音声コーパス作成,声質変換,音声知覚実験に関する成果報告も多数実施してきた.
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
目標とする音声デザインの技術的な課題について,ピッチ情報について最低限の条件をクリアしたプロトタイプの構築を完了した.音声デザインに向けたインタフェース開発も論文として採録されており,当初定めた目標は順調に達成しつつある.加えて,コーパス構築,声質変換,音声知覚評価など多面的な取り組みを実施し,それぞれについて学会で発表するなど幅広く研究を進めていると考えている.
|
Strategy for Future Research Activity |
本プロジェクトは2024年度が最終年度であるため,これまで検討してきた様々な内容について,国際会議発表や学術論文として採録されることを目指す.具体的に,ビスポーク音声デザインのプロトタイプは簡単な評価を実施しているにとどまっており,学会でプロトタイプを発表するのみである.同様に,他の検討内容も学術論文に至っていないものが複数ある.学術論文にするためには新たに大規模な主観評価実験を必要とするため,本年度の序盤は主観評価を中心に実施し,査読付きの国際会議や学術論文に投稿し,採録されることを目指す.
|