Project/Area Number |
21H04900
|
Research Category |
Grant-in-Aid for Scientific Research (A)
|
Allocation Type | Single-year Grants |
Section | 一般 |
Review Section |
Medium-sized Section 61:Human informatics and related fields
|
Research Institution | Meiji University |
Principal Investigator |
森勢 将雅 明治大学, 総合数理学部, 専任准教授 (60510013)
|
Co-Investigator(Kenkyū-buntansha) |
田中 章浩 東京女子大学, 現代教養学部, 教授 (80396530)
齋藤 大輔 東京大学, 大学院工学系研究科(工学部), 准教授 (40615150)
高道 慎之介 東京大学, 大学院情報理工学系研究科, 助教 (90784330)
|
Project Period (FY) |
2021-04-05 – 2025-03-31
|
Project Status |
Granted (Fiscal Year 2023)
|
Budget Amount *help |
¥42,770,000 (Direct Cost: ¥32,900,000、Indirect Cost: ¥9,870,000)
Fiscal Year 2024: ¥4,680,000 (Direct Cost: ¥3,600,000、Indirect Cost: ¥1,080,000)
Fiscal Year 2023: ¥6,370,000 (Direct Cost: ¥4,900,000、Indirect Cost: ¥1,470,000)
Fiscal Year 2022: ¥11,050,000 (Direct Cost: ¥8,500,000、Indirect Cost: ¥2,550,000)
Fiscal Year 2021: ¥20,670,000 (Direct Cost: ¥15,900,000、Indirect Cost: ¥4,770,000)
|
Keywords | 音声・歌声情報処理 / 音声デザイン / 声質変換 / 音声知覚 / 音声情報処理 / 音声合成 |
Outline of Research at the Start |
最先端のテキスト音声合成は人間とほぼ等価な音声を合成可能であり,すでにスマートスピーカなどで利用されている.一方,同じテキストでも状況により表現を柔軟に加工できる技術は,主にコンテンツ制作の領域において需要がある.本研究は,音声合成研究の新たな方向性として,計算機があたかも職人のようにユーザと共同し,ユーザの音声デザインを助ける技術開発を目指す.心理学分野と連携し,テキスト音声合成や声質変換に適した音声制御のための心理パラメータを明らかにする.ユーザが大まかにデザインした結果を計算機が微調整し,自然な音声を合成する一連の技術を「ビスポーク音声デザイン」として体系化することが狙いである.
|
Outline of Annual Research Achievements |
2022年度は,2021年度に構築した音声データベースを用いて発話スタイルの音響特徴解析を行う研究や,音声デザインインタフェース開発を目指したGUIの試作,および様々な特徴を有する音声合成技術の研究等多面的な活動に取り組んだ. 音声データベース用いたテキスト音声合成を実装することで,Deep learningベースの方法を用いた場合でも,データベースの量・質ともに問題が無いことを確認した.その後,音声デザインを重視した技術の実現を目指し,従来法の改良に取り組んだ.加えて,声優が意図的に変化させた発話スタイルが,音声の基本周波数やフォルマント周波数,および話速に影響を与えていることを確認した.コーパスの読みやすさを評価するため,2名の声優に4,600文のコーパスを朗読させ,全文のリテイク回数を記録し比較することで朗読が困難な文が無いか評価した.評価の結果,共通する文でリテイク数が増加する傾向は認められず,一文を構成するモーラ数とリテイク数が比例する傾向を確認した. 音声分析や合成に関する研究では,避難呼びかけの音声の分析や合成,2話者の中間属性を有する音声の合成技術,およびささやき声の生成法などの実現を目指した研究を推進した.加えて,声質変換技術にも取り組み,Deep neural networks (DNN)による声質変換技術について論文を発表した.音声知覚についても,音声に対して知覚するポジティブ感情,および音声のみならず感情も含めた感情知覚に関する研究を推進した. 音声デザインGUIについては,研究代表者の代表的な成果である音声分析合成基盤WORLDをGUIとして実装し,音声デザインインタフェース開発に向けた問題点の洗い出しに取り組んだ.現状では高さ(基本周波数)など物理量で近似できるパラメータの制御に絞り,柔軟に操作できることを優先してプロトタイプを実装した.
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
対面での主観評価の実施も滞りなくできるようになりつつあり,コロナ禍によりオンライン化を余儀なくされていた実験等の遅延問題はほぼ解消した.音声分析,合成,知覚,デザインに関する幅広い取り組みを実施しており,概ね順調な成果を上げつつあると評価している.
|
Strategy for Future Research Activity |
引き続き,様々な感性情報を有する音声の分析,合成,知覚に関する研究を進める.加えて,音声デザインについては,目的とするビスポークデザインを実現するプロトタイプの研究開発に取り組む.具体的には,ユーザが厳密ではないリクエストを提示し,計算機がそこからリクエストを反映させて自然な音声を生成する技術の開発を目指す.デザインすべきパラメータ等は無数にあるため,ここでは基本周波数を対象とし,点ピッチパターンの考え方をデザインに取り入れることを目指す.
|