2022 Fiscal Year Annual Research Report
Project/Area Number |
21H04900
|
Research Institution | Meiji University |
Principal Investigator |
森勢 将雅 明治大学, 総合数理学部, 専任准教授 (60510013)
|
Co-Investigator(Kenkyū-buntansha) |
田中 章浩 東京女子大学, 現代教養学部, 教授 (80396530)
齋藤 大輔 東京大学, 大学院工学系研究科(工学部), 准教授 (40615150)
高道 慎之介 東京大学, 大学院情報理工学系研究科, 助教 (90784330)
|
Project Period (FY) |
2021-04-05 – 2025-03-31
|
Keywords | 音声情報処理 / 音声合成 / 声質変換 / 音声知覚 / 音声デザイン |
Outline of Annual Research Achievements |
2022年度は,2021年度に構築した音声データベースを用いて発話スタイルの音響特徴解析を行う研究や,音声デザインインタフェース開発を目指したGUIの試作,および様々な特徴を有する音声合成技術の研究等多面的な活動に取り組んだ. 音声データベース用いたテキスト音声合成を実装することで,Deep learningベースの方法を用いた場合でも,データベースの量・質ともに問題が無いことを確認した.その後,音声デザインを重視した技術の実現を目指し,従来法の改良に取り組んだ.加えて,声優が意図的に変化させた発話スタイルが,音声の基本周波数やフォルマント周波数,および話速に影響を与えていることを確認した.コーパスの読みやすさを評価するため,2名の声優に4,600文のコーパスを朗読させ,全文のリテイク回数を記録し比較することで朗読が困難な文が無いか評価した.評価の結果,共通する文でリテイク数が増加する傾向は認められず,一文を構成するモーラ数とリテイク数が比例する傾向を確認した. 音声分析や合成に関する研究では,避難呼びかけの音声の分析や合成,2話者の中間属性を有する音声の合成技術,およびささやき声の生成法などの実現を目指した研究を推進した.加えて,声質変換技術にも取り組み,Deep neural networks (DNN)による声質変換技術について論文を発表した.音声知覚についても,音声に対して知覚するポジティブ感情,および音声のみならず感情も含めた感情知覚に関する研究を推進した. 音声デザインGUIについては,研究代表者の代表的な成果である音声分析合成基盤WORLDをGUIとして実装し,音声デザインインタフェース開発に向けた問題点の洗い出しに取り組んだ.現状では高さ(基本周波数)など物理量で近似できるパラメータの制御に絞り,柔軟に操作できることを優先してプロトタイプを実装した.
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
対面での主観評価の実施も滞りなくできるようになりつつあり,コロナ禍によりオンライン化を余儀なくされていた実験等の遅延問題はほぼ解消した.音声分析,合成,知覚,デザインに関する幅広い取り組みを実施しており,概ね順調な成果を上げつつあると評価している.
|
Strategy for Future Research Activity |
引き続き,様々な感性情報を有する音声の分析,合成,知覚に関する研究を進める.加えて,音声デザインについては,目的とするビスポークデザインを実現するプロトタイプの研究開発に取り組む.具体的には,ユーザが厳密ではないリクエストを提示し,計算機がそこからリクエストを反映させて自然な音声を生成する技術の開発を目指す.デザインすべきパラメータ等は無数にあるため,ここでは基本周波数を対象とし,点ピッチパターンの考え方をデザインに取り入れることを目指す.
|