2022 年度実績報告書

音声音響ダークデータ採掘技術の研究

研究課題

研究課題/領域番号	22H03639
配分区分	補助金
研究機関	東京大学
研究代表者	高道慎之介東京大学, 大学院情報理工学系研究科, 助教 (90784330)
研究分担者	井本桂右同志社大学, 理工学部, 准教授 (90802116)
研究期間 (年度)	2022-04-01 – 2026-03-31
キーワード	音声認識合成 / 音響認識合成 / ダークデータ / コーパス
研究実績の概要	本研究課題は，音声音響ダークデータから，超大規模かつ広範利用できる音声音響コーパスを構築する方法論を扱う．その実現にあたり，(1) 音声音響ダークデータを自動取得するWeb工学技術の開発，(2)ダークデータからその利用可能性を定量化する機械学習技術の開発，(3)大規模データに対する効率的なラベリング法，(4)種々の音声音響認識合成における評価を実施する．本年度は，(a) 音声ダークデータからの音声合成コーパスの構築，(b) 半ダークデータからのお環境音合成法に取り組んだ．(a) については，Webから自動取得した音データの内，音声合成に資するデータの自動取得を試みた．話者ラベルの自動取得，音声ーテキストの対応度合いの自動化，学習データとしての質の自動化を試見た結果，2000人以上の話者の音声合成をかのうにすることを明らかにした．(b) については，環境音を合成するためのテキスト表現法およびモデル学習法について検討した．結果として，査読付き国際会議3本，国内会議4本，招待講演1本の実績を得た．本年度の実績により，音声音響ダークデータからコーパスを構築するための方法論およびモデル学習基盤を構築できたと言える．これにより，音声音響コーパスおよびモデルを広く社会に提供する準備がある程度整った．本年度に実施していないタスクでの検証は必要だが，これを踏まえ来年度はコーパスおよびモデルを社会インフラとして公開していく予定である．
現在までの達成度 (区分)	現在までの達成度 (区分) 2: おおむね順調に進展している理由予定されていた内容を順調に実施している．
今後の研究の推進方策	計画書通りに遂行する．

研究成果
(8件)

すべて 2023 2022

すべて雑誌論文 (1件) (うち査読あり 1件、オープンアクセス 1件) 学会発表 (7件) (うち国際学会 3件、招待講演 1件)

[雑誌論文] Onoma-to-wave: Environmental Sound Synthesis from Onomatopoeic Words2022
- 著者名/発表者名
  Yuki Okamoto, Keisuke Imoto, Shinnosuke Takamichi, Ryosuke Yamanishi, Takahiro Fukumori, and Yoichi Yamashita
- 雑誌名
  
  APSIPA Transactions on Signal and Information Processing
  
  巻: 11 ページ: 1-20
- 査読あり / オープンアクセス
[学会発表] 計算機による環境音の理解・解釈に向けた統合的コンペティションDCASE Challengeへの招待2023
- 著者名/発表者名
  井本桂右
- 学会等名
  日本音響学会 2023年春季研究発表会
- 招待講演
[学会発表] Visual onoma-to-wave：画像オノマトペと音源画像を利用した環境音合成の提案2023
- 著者名/発表者名
  大中緋慧
- 学会等名
  電子情報通信学会音声研究会
[学会発表] Visual Onoma-to-Wave: Environmental Sound Synthesis From Visual Onomatopoeias and Sound-Source Images2023
- 著者名/発表者名
  Hien Ohnaka
- 学会等名
  Proc. IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)
- 国際学会
[学会発表] Text-to-speech synthesis from dark data with evaluation-in-the-loop data selection2023
- 著者名/発表者名
  Kentaro Seki
- 学会等名
  Proc. IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)
- 国際学会
[学会発表] 学習・評価ループを用いたデータ選択によるダークデータからの音声合成2023
- 著者名/発表者名
  関健太郎
- 学会等名
  日本音響学会 2023年春季研究発表会
[学会発表] 環境音合成の入力情報に応じた主観評価手法の検討2022
- 著者名/発表者名
  岡本悠希
- 学会等名
  日本音響学会 2022年秋季研究発表会
[学会発表] How Should We Evaluate Synthesized Environmental Sounds2022
- 著者名/発表者名
  Yuki Okamoto
- 学会等名
  Proc. Asia-Pacific Signal and Information Processing Association Annual Summit and Conference (APSIPA ASC)
- 国際学会

2022 年度 実績報告書

音声音響ダークデータ採掘技術の研究

研究代表者

高道 慎之介 東京大学, 大学院情報理工学系研究科, 助教 (90784330)

現在までの達成度 (区分)

理由

研究成果

[雑誌論文] Onoma-to-wave: Environmental Sound Synthesis from Onomatopoeic Words2022

著者名/発表者名

雑誌名

[学会発表] 計算機による環境音の理解・解釈に向けた統合的コンペティションDCASE Challengeへの招待2023

著者名/発表者名

学会等名

[学会発表] Visual onoma-to-wave：画像オノマトペと音源画像を利用した環境音合成の提案2023

著者名/発表者名

学会等名

[学会発表] Visual Onoma-to-Wave: Environmental Sound Synthesis From Visual Onomatopoeias and Sound-Source Images2023

著者名/発表者名

学会等名

[学会発表] Text-to-speech synthesis from dark data with evaluation-in-the-loop data selection2023

著者名/発表者名

学会等名

[学会発表] 学習・評価ループを用いたデータ選択によるダークデータからの音声合成2023

著者名/発表者名

学会等名

[学会発表] 環境音合成の入力情報に応じた主観評価手法の検討2022

著者名/発表者名

学会等名

[学会発表] How Should We Evaluate Synthesized Environmental Sounds2022

著者名/発表者名

学会等名

2022 年度実績報告書

高道慎之介東京大学, 大学院情報理工学系研究科, 助教 (90784330)