2023 年度実施状況報告書

eスポーツ理解に向けた実況解説音声の分析及び音声合成アルゴリズムの開発

研究課題

研究課題/領域番号	22K17945
研究機関	東京大学
研究代表者	齋藤佑樹東京大学, 大学院情報理工学系研究科, 講師 (20907901)
研究期間 (年度)	2022-04-01 – 2025-03-31
キーワード	音声合成 / eスポーツ / 実況解説音声 / 深層学習
研究実績の概要	本年度は，実況解説音声合成モデルの機械学習アルゴリズムを構築した．申請が構築・整備した SMASH コーパスを用いた深層学習により，実況解説者が盛り上がるタイミングで合成音声の表現力を向上させることを目的とした．eスポーツ対戦動画の情報も活用した学習法も検討したが，現状の事前学習済み深層学習モデルに対するドメイン外の入力であるため，合成音声の表現力向上にはつながらなかった．また，実況解説者の音声に対し「実況の盛り上がり度合い」をクラウドソーシングでアノテーションした結果と音声特徴量の相関分析を行い，盛り上がり度合いと音声の基本周波数・エネルギーが概ね強い相関を持つことを確認した．プロの実況解説者・eスポーツプレイヤーのデータ収集については，現在 YouTube からのクローニングを進めており，本年度中に数千時間規模のデータを収集済みである．今後は，この収集したデータを活用した機械学習アルゴリズムについて検討する．
現在までの達成度 (区分)	現在までの達成度 (区分) 2: おおむね順調に進展している理由機械学習アルゴリズムの構築・データセット収集ともに概ね順調に進展している．
今後の研究の推進方策	引き続き，本年度で実況解説音声合成モデルのベースラインモデルを改善する予定である．
次年度使用額が生じた理由	プロ実況解説者の音声収録が遅れたためである．次年度に引き続き使用予定である．