研究課題/領域番号 |
21H04900
|
研究機関 | 明治大学 |
研究代表者 |
森勢 将雅 明治大学, 総合数理学部, 専任准教授 (60510013)
|
研究分担者 |
田中 章浩 東京女子大学, 現代教養学部, 教授 (80396530)
齋藤 大輔 東京大学, 大学院工学系研究科(工学部), 准教授 (40615150)
高道 慎之介 東京大学, 大学院情報理工学系研究科, 助教 (90784330)
|
研究期間 (年度) |
2021-04-05 – 2025-03-31
|
キーワード | 音声情報処理 / 音声合成 / 声質変換 / 音声知覚 / 音声デザイン |
研究実績の概要 |
ユーザが計算機と協調して所望の音声を作り上げる「ビスポーク音声デザイン」の実現を目指した一連の研究を推進した.初年度は,今後の研究を円滑に推進するための基盤作りとして,様々な音声を合成する基盤技術の研究や,テキスト音声合成研究を推進するための大規模なコーパス作り,およびプロ声優による複数の発話スタイルでのコーパス文の朗読による音声データベースの構築に取り組んだ.以下では,音声コーパス・データベース構築について中心に説明する. 音声データベースの構築では自由発話が対象の場合もあるが,テキスト音声合成では安定した声質が重要であることから,何らかのコーパスを朗読することが多い.ここで,朗読する具体的な音声コーパスは,ATR音素バランス文やITAコーパス,あるいは著作権切れの文などを利用していた.一方,現在の日本語は「ヴァ」行や「ツァ」行のように利用するモーラが増えており,著作権切れの文のみでは出現しないことが問題となる.加えて,近年のテキスト音声合成では必要な音声データが大規模化しており,従来用いられていた数百文程度では十分な性能が得られない.そこで,モーラの種類については,通常の文では出現頻度の低いレアなモーラを含む独自の文で構成され,文の数も数千の規模からなる新たなコーパスを構築した.本コーパスは,常用漢字の読みを全て含む4,600文から構成されており,朗読するとおよそ6時間ほどのものである.全て独自の文章で構築されており自由なライセンスを設定できるため,パブリック・ドメインで公開している. 本コーパスの構築後は,プロ声優により3つの発話スタイル(通常,ニュースのアナウンス風,絵本の朗読風)で朗読した音声を収録し,音声データベースとして公開した.同じ文を異なる発話スタイルで朗読しており,発話スタイルの違いがどのような音響特徴量で表現できるかの研究に利用可能である.
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
コロナ禍の影響により,音声収録や対面での音声知覚実験についてスケジュールに遅れが生じていた.一方,それ以外の研究については想定したスケジュールで進行しており,全体としては,概ね順調に進展していると判断している.
|
今後の研究の推進方策 |
2021年度に構築した音声データベースを活用し,発話スタイルを変えた音声合成の実現や,発話スタイルがどのような音響特徴量の違いで表現されているかを検討する.音声合成で扱う感情表現は,従来喜怒哀程度であったが,音声の感情表現はこれらでは表せない表現が無数に存在するといえる.したがって,音声デザインで扱う感情表現について,現場のニーズの調査を含めて絞り込む作業が実施する. 現状は音声合成の技術を中心に扱っているが,音声デザインを実現するためには,デザイン用のインタフェースの研究も必要となる.音声デザインのインタフェースに対する機能について検討し,その機能をあった音声合成技術を開発することで,総合的な音声デザイン技術を追求することを目指す.
|