2022 Fiscal Year Annual Research Report

Research on retriving speech and acoustic dark data

Research Project

Project/Area Number	22H03639
Allocation Type	Single-year Grants
Research Institution	The University of Tokyo
Principal Investigator	高道慎之介東京大学, 大学院情報理工学系研究科, 助教 (90784330)
Co-Investigator(Kenkyū-buntansha)	井本桂右同志社大学, 理工学部, 准教授 (90802116)
Project Period (FY)	2022-04-01 – 2026-03-31
Keywords	音声認識合成 / 音響認識合成 / ダークデータ / コーパス
Outline of Annual Research Achievements	本研究課題は，音声音響ダークデータから，超大規模かつ広範利用できる音声音響コーパスを構築する方法論を扱う．その実現にあたり，(1) 音声音響ダークデータを自動取得するWeb工学技術の開発，(2)ダークデータからその利用可能性を定量化する機械学習技術の開発，(3)大規模データに対する効率的なラベリング法，(4)種々の音声音響認識合成における評価を実施する．本年度は，(a) 音声ダークデータからの音声合成コーパスの構築，(b) 半ダークデータからのお環境音合成法に取り組んだ．(a) については，Webから自動取得した音データの内，音声合成に資するデータの自動取得を試みた．話者ラベルの自動取得，音声ーテキストの対応度合いの自動化，学習データとしての質の自動化を試見た結果，2000人以上の話者の音声合成をかのうにすることを明らかにした．(b) については，環境音を合成するためのテキスト表現法およびモデル学習法について検討した．結果として，査読付き国際会議3本，国内会議4本，招待講演1本の実績を得た．本年度の実績により，音声音響ダークデータからコーパスを構築するための方法論およびモデル学習基盤を構築できたと言える．これにより，音声音響コーパスおよびモデルを広く社会に提供する準備がある程度整った．本年度に実施していないタスクでの検証は必要だが，これを踏まえ来年度はコーパスおよびモデルを社会インフラとして公開していく予定である．
Current Status of Research Progress	Current Status of Research Progress 2: Research has progressed on the whole more than it was originally planned. Reason 予定されていた内容を順調に実施している．
Strategy for Future Research Activity	計画書通りに遂行する．

Research Products
(8 results)

All 2023 2022

All Journal Article (1 results) (of which Peer Reviewed: 1 results, Open Access: 1 results) Presentation (7 results) (of which Int'l Joint Research: 3 results, Invited: 1 results)

[Journal Article] Onoma-to-wave: Environmental Sound Synthesis from Onomatopoeic Words2022
- Author(s)
  Yuki Okamoto, Keisuke Imoto, Shinnosuke Takamichi, Ryosuke Yamanishi, Takahiro Fukumori, and Yoichi Yamashita
- Journal Title
  
  APSIPA Transactions on Signal and Information Processing
  
  Volume: 11 Pages: 1-20
- Peer Reviewed / Open Access
[Presentation] 計算機による環境音の理解・解釈に向けた統合的コンペティションDCASE Challengeへの招待2023
- Author(s)
  井本桂右
- Organizer
  日本音響学会 2023年春季研究発表会
- Invited
[Presentation] Visual onoma-to-wave：画像オノマトペと音源画像を利用した環境音合成の提案2023
- Author(s)
  大中緋慧
- Organizer
  電子情報通信学会音声研究会
[Presentation] Visual Onoma-to-Wave: Environmental Sound Synthesis From Visual Onomatopoeias and Sound-Source Images2023
- Author(s)
  Hien Ohnaka
- Organizer
  Proc. IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)
- Int'l Joint Research
[Presentation] Text-to-speech synthesis from dark data with evaluation-in-the-loop data selection2023
- Author(s)
  Kentaro Seki
- Organizer
  Proc. IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)
- Int'l Joint Research
[Presentation] 学習・評価ループを用いたデータ選択によるダークデータからの音声合成2023
- Author(s)
  関健太郎
- Organizer
  日本音響学会 2023年春季研究発表会
[Presentation] 環境音合成の入力情報に応じた主観評価手法の検討2022
- Author(s)
  岡本悠希
- Organizer
  日本音響学会 2022年秋季研究発表会
[Presentation] How Should We Evaluate Synthesized Environmental Sounds2022
- Author(s)
  Yuki Okamoto
- Organizer
  Proc. Asia-Pacific Signal and Information Processing Association Annual Summit and Conference (APSIPA ASC)
- Int'l Joint Research

2022 Fiscal Year Annual Research Report

Research on retriving speech and acoustic dark data

Principal Investigator

高道 慎之介 東京大学, 大学院情報理工学系研究科, 助教 (90784330)

Current Status of Research Progress

Reason

Research Products

[Journal Article] Onoma-to-wave: Environmental Sound Synthesis from Onomatopoeic Words2022

Author(s)

Journal Title

[Presentation] 計算機による環境音の理解・解釈に向けた統合的コンペティションDCASE Challengeへの招待2023

Author(s)

Organizer

[Presentation] Visual onoma-to-wave：画像オノマトペと音源画像を利用した環境音合成の提案2023

Author(s)

Organizer

[Presentation] Visual Onoma-to-Wave: Environmental Sound Synthesis From Visual Onomatopoeias and Sound-Source Images2023

Author(s)

Organizer

[Presentation] Text-to-speech synthesis from dark data with evaluation-in-the-loop data selection2023

Author(s)

Organizer

[Presentation] 学習・評価ループを用いたデータ選択によるダークデータからの音声合成2023

Author(s)

Organizer

[Presentation] 環境音合成の入力情報に応じた主観評価手法の検討2022

Author(s)

Organizer

[Presentation] How Should We Evaluate Synthesized Environmental Sounds2022

Author(s)

Organizer

高道慎之介東京大学, 大学院情報理工学系研究科, 助教 (90784330)