2020 Fiscal Year Research-status Report
調音運動データベースの構築とデータベース間の正規化および調音運動ベースの音声合成
Project/Area Number |
19K12024
|
Research Institution | Tokyo University of Science |
Principal Investigator |
桂田 浩一 東京理科大学, 理工学部情報科学科, 准教授 (80324490)
|
Co-Investigator(Kenkyū-buntansha) |
牧野 武彦 中央大学, 経済学部, 教授 (00269482)
若宮 幸平 九州大学, 芸術工学研究院, 助教 (70294999)
|
Project Period (FY) |
2019-04-01 – 2022-03-31
|
Keywords | 音声合成 / 調音運動 / データベース構築 / 深層学習 |
Outline of Annual Research Achievements |
2020年度は次の各項目について取り組んだ:(1)日本語調音運動データベースの構築,(2)調音運動からの音声合成の研究,(3)テキストから調音運動を生成するための予備実験,(4)rtMRIデータからの音声合成. まず(1)については,新たに1名のデータを収録するとともに,これまでに収録していた1名分の単音ラベリングを前年度に引き続き行った.コロナ禍の影響で収録の機会が十分に得られず,収録のペースを落とさざるを得なかった. (2)については,前年度に引き続きEMA-MAEデータベースを用いたシステムを構築し,評価実験を行った.音声合成のモデルには,前年度に導入したBLSTM(Bi-directional Long Short-Term Memory)とドメイン敵対的学習,2ステージネットワークを用いた深層学習器を用いた.また,評価実験の結果が良好であったことから,成果をInterSpeech2020において発表した. (3)については,テキストからIPA(国際音声記号)を経由して調音運動を生成するシステムの構築を目指して,テキストからIPAを生成する深層学習器を用いたシステムを予備的に構築し,評価した. 以上,(1)~(3)については調音運動としてEMA(Electromagnetic Articulography)を用いたが,これに加えて(4)では,rtMRIにより取得された声道断面の動画像データから音声を合成する方法を提案した.rtMRIの動画像データは時間解像度が低いという特徴を持つため,音声合成のモデルとしては,時間解像度を向上する超解像処理を行うことができるTransposed Convolutional Neural Networkを基本とする深層学習器を用いた.
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
研究実績の概要で示した(2)~(4)に該当する調音運動からの音声合成,及びその関連研究については予定以上の進捗で進んでいる.特に,(2)および(4)については当初の目標と比べて高い性能の音声合成器を得ることができており,十分な成果が上がっているといえる. 一方,研究実績の概要の項目(1)の調音運動データベースの収録については,密な環境での被験者との接触が避けられないため,コロナ禍の影響で十分に収録の機会を得ることができなかった.2019年度には2名の収録を実施できたが,2020年度には1名の収録を行ったに留まった. 以上から,データベース収録を除く研究開発については予定以上に進捗が進んでいる一方,データベース構築に関しては進捗状況が遅れていることから,全体として「おおむね順調に進展している」という評価とした.
|
Strategy for Future Research Activity |
現時点で十分に進捗が進んでいる音声合成システムの開発については,2021年度も引き続きその性能向上を目指す. また,2020年度時点で若干進捗が遅れているデータベース構築については,2021年度に収録人数の増加を検討するが,コロナウィルスの蔓延状況によっては2021年度も十分な収録が行えない可能性がある.この場合,データベース公開の延期も考慮に入れて収録作業を進めていきたい.
|
Causes of Carryover |
データベースの収集が十分に進捗したかったため,被験者の依頼に係る諸費用を2021年度に持ち越すことになった.
|