研究課題/領域番号 |
19K12024
|
研究機関 | 東京理科大学 |
研究代表者 |
桂田 浩一 東京理科大学, 理工学部情報科学科, 准教授 (80324490)
|
研究分担者 |
牧野 武彦 中央大学, 経済学部, 教授 (00269482)
若宮 幸平 九州大学, 芸術工学研究院, 助教 (70294999)
|
研究期間 (年度) |
2019-04-01 – 2022-03-31
|
キーワード | 調音運動 / EMA / 音声合成 / IPA |
研究実績の概要 |
2019年度には(1)日本語調音運動データベースの構築,および(2)調音運動からの音声合成の研究に取り組んだ. まず(1)については,新たに2名のデータを収録するとともに,これまでに収録していた1名分の単音ラベリングを開始した.新たに収録した2名のうち1名は従来(日本語503文+英文23文)と比べて多くの文(日本語の短文1000文程度を追加)を収録している. (2)については,多人数話者の調音運動を対象に,話者非依存の音声合成モデルを構築することを目指した.多人数話者の合成モデルを構築するために,40名の話者の調音運動を収録した既存のデータベースであるEMA-MAEデータベースを用いた.音声合成のモデルには,近年の調音運動からの音声合成で良好な性能を示しているBLSTM(Bi-directional Long Short-Term Memory)をベースに,ドメイン敵対的学習や2ステージネットワークの導入によって性能の改善を図った.2ステージネットワークの1ステージ目では話者正規化のために全話者の平均の調音運動を出力するようネットワークを学習しており,その性能向上のために機械学習の分野で有効性の確認されているドメイン敵対的学習を用いた.また,1ステージ目で生成した話者非依存な調音運動に対して,2ステージ目で話者性を表す情報を付加することで,多人数話者音声合成を実現した.実験の結果,話者オープンの音声合成の結果は十分でなかったものの,話者クローズの音声合成では単純なBLSTMと比較して十分な改善が見られた.
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
本研究課題の2019年度の目標は次の3項目である.(1)日本語調音運動データベースの構築(調音運動の収録,単音ラベリング),(2)調音運動データベース間の正規化(同一話者,異なるコイル間),(3)調音運動ベースの音声合成(調音運動→合成音声),のそれぞれを実施する計画を立てていた. このうち(1)については当初の予定通りの内容で実施した.(2)と(3)については独立して実施せず,多人数話者の調音運動からの音声合成という形で,一つのシステム内で実施した.2ステージネットワークの第1ステージが(2)の役割を果たし,第2ステージが(3)の役割を果たしている.実験において良好な音声が合成されたことから,2019年度の目標は十分達成できたと考えている.
|
今後の研究の推進方策 |
2019年度は予定通りに目標が達成できたことから,2020年度も当初の目標の通りに実施する予定である.
|
次年度使用額が生じた理由 |
3月に参加予定の複数の会議がオンライン化されたため,出張旅費が未使用となった.2020年度にデータベース収録者を追加する形で経費を使用する予定である.
|