Project/Area Number |
22K17945
|
Research Category |
Grant-in-Aid for Early-Career Scientists
|
Allocation Type | Multi-year Fund |
Review Section |
Basic Section 61030:Intelligent informatics-related
|
Research Institution | The University of Tokyo |
Principal Investigator |
齋藤 佑樹 東京大学, 大学院情報理工学系研究科, 講師 (20907901)
|
Project Period (FY) |
2022-04-01 – 2025-03-31
|
Project Status |
Granted (Fiscal Year 2023)
|
Budget Amount *help |
¥4,680,000 (Direct Cost: ¥3,600,000、Indirect Cost: ¥1,080,000)
Fiscal Year 2024: ¥1,040,000 (Direct Cost: ¥800,000、Indirect Cost: ¥240,000)
Fiscal Year 2023: ¥1,040,000 (Direct Cost: ¥800,000、Indirect Cost: ¥240,000)
Fiscal Year 2022: ¥2,600,000 (Direct Cost: ¥2,000,000、Indirect Cost: ¥600,000)
|
Keywords | 音声合成 / eスポーツ / 実況解説音声 / 深層学習 |
Outline of Research at the Start |
eスポーツとは,電子機器を用いて行う娯楽・競技・スポーツ全般を指す言葉であり,狭義にはコンピューターゲームやビデオゲームを使った対戦をスポーツ競技として捉えたものである.eスポーツの社会的認知度は,オンラインゲーム文化の普及に伴って高まり,2021年には国際オリンピック委員会がeスポーツの公式大会を開催するまでに至っている. 本研究では,先進的な音声エンターテインメント応用に向けた音声合成技術の基盤構築を目指し,eスポーツの実況解説音声を対象とした音声分析と音声合成の研究開発を行う.
|
Outline of Annual Research Achievements |
本年度は,実況解説音声合成モデルの機械学習アルゴリズムを構築した.申請が構築・整備した SMASH コーパスを用いた深層学習により,実況解説者が盛り上がるタイミングで合成音声の表現力を向上させることを目的とした.eスポーツ対戦動画の情報も活用した学習法も検討したが,現状の事前学習済み深層学習モデルに対するドメイン外の入力であるため,合成音声の表現力向上にはつながらなかった.また,実況解説者の音声に対し「実況の盛り上がり度合い」をクラウドソーシングでアノテーションした結果と音声特徴量の相関分析を行い,盛り上がり度合いと音声の基本周波数・エネルギーが概ね強い相関を持つことを確認した.プロの実況解説者・eスポーツプレイヤーのデータ収集については,現在 YouTube からのクローニングを進めており,本年度中に数千時間規模のデータを収集済みである.今後は,この収集したデータを活用した機械学習アルゴリズムについて検討する.
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
機械学習アルゴリズムの構築・データセット収集ともに概ね順調に進展している.
|
Strategy for Future Research Activity |
引き続き,本年度で実況解説音声合成モデルのベースラインモデルを改善する予定である.
|