研究課題/領域番号 |
22K17945
|
研究種目 |
若手研究
|
配分区分 | 基金 |
審査区分 |
小区分61030:知能情報学関連
|
研究機関 | 東京大学 |
研究代表者 |
齋藤 佑樹 東京大学, 大学院情報理工学系研究科, 講師 (20907901)
|
研究期間 (年度) |
2022-04-01 – 2025-03-31
|
研究課題ステータス |
交付 (2023年度)
|
配分額 *注記 |
4,680千円 (直接経費: 3,600千円、間接経費: 1,080千円)
2024年度: 1,040千円 (直接経費: 800千円、間接経費: 240千円)
2023年度: 1,040千円 (直接経費: 800千円、間接経費: 240千円)
2022年度: 2,600千円 (直接経費: 2,000千円、間接経費: 600千円)
|
キーワード | 音声合成 / eスポーツ / 実況解説音声 / 深層学習 |
研究開始時の研究の概要 |
eスポーツとは,電子機器を用いて行う娯楽・競技・スポーツ全般を指す言葉であり,狭義にはコンピューターゲームやビデオゲームを使った対戦をスポーツ競技として捉えたものである.eスポーツの社会的認知度は,オンラインゲーム文化の普及に伴って高まり,2021年には国際オリンピック委員会がeスポーツの公式大会を開催するまでに至っている. 本研究では,先進的な音声エンターテインメント応用に向けた音声合成技術の基盤構築を目指し,eスポーツの実況解説音声を対象とした音声分析と音声合成の研究開発を行う.
|
研究実績の概要 |
本年度は,実況解説音声合成モデルの機械学習アルゴリズムを構築した.申請が構築・整備した SMASH コーパスを用いた深層学習により,実況解説者が盛り上がるタイミングで合成音声の表現力を向上させることを目的とした.eスポーツ対戦動画の情報も活用した学習法も検討したが,現状の事前学習済み深層学習モデルに対するドメイン外の入力であるため,合成音声の表現力向上にはつながらなかった.また,実況解説者の音声に対し「実況の盛り上がり度合い」をクラウドソーシングでアノテーションした結果と音声特徴量の相関分析を行い,盛り上がり度合いと音声の基本周波数・エネルギーが概ね強い相関を持つことを確認した.プロの実況解説者・eスポーツプレイヤーのデータ収集については,現在 YouTube からのクローニングを進めており,本年度中に数千時間規模のデータを収集済みである.今後は,この収集したデータを活用した機械学習アルゴリズムについて検討する.
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
機械学習アルゴリズムの構築・データセット収集ともに概ね順調に進展している.
|
今後の研究の推進方策 |
引き続き,本年度で実況解説音声合成モデルのベースラインモデルを改善する予定である.
|