音声音響ダークデータ採掘技術の研究

研究課題

研究課題/領域番号	23K24895
補助金の研究課題番号	22H03639 (2022-2023)
研究種目	基盤研究(B)
配分区分	基金 (2024) 補助金 (2022-2023)
応募区分	一般
審査区分	小区分61030:知能情報学関連
研究機関	慶應義塾大学 (2024) 東京大学 (2022-2023)
研究代表者	高道慎之介慶應義塾大学, 理工学部(矢上), 准教授 (90784330)
研究分担者	井本桂右同志社大学, 文化情報学部, 准教授 (90802116) 猿渡洋東京大学, 大学院情報理工学系研究科, 教授 (30324974)
研究期間 (年度)	2022-04-01 – 2026-03-31
研究課題ステータス	交付 (2024年度)
配分額 *注記	17,160千円 (直接経費: 13,200千円、間接経費: 3,960千円) 2025年度: 3,380千円 (直接経費: 2,600千円、間接経費: 780千円) 2024年度: 3,640千円 (直接経費: 2,800千円、間接経費: 840千円) 2023年度: 5,070千円 (直接経費: 3,900千円、間接経費: 1,170千円) 2022年度: 5,070千円 (直接経費: 3,900千円、間接経費: 1,170千円)
キーワード	音声認識合成 / 音響認識合成 / ダークデータ / コーパス
研究開始時の研究の概要	本研究課題は，音声音響ダークデータから，超大規模かつ広範利用できる音声音響コーパスを構築する方法論を扱う．その実現にあたり，(1) 音声音響ダークデータを自動取得するWeb工学技術の開発，(2)ダークデータからその利用可能性を定量化する機械学習技術の開発，(3)大規模データに対する効率的なラベリング法，(4)種々の音声音響認識合成における評価を実施する．
研究実績の概要	本年度は (1) 評価ループに基づく音声合成，(2) Webデータからのコーパス構築法，(3) 音響イベントとシーンの同時分析を提案した． (1) 評価ループに基づく音声合成については，ダークデータから音声合成を構築する方法を提案した．ダークデータに対するデータ洗練処理が機械学習にとって最適とは限らないため，最終的な機械学習性能が最大になるようにデータ洗練・選択を実行する方法を提案した． (2) Webデータからのコーパス構築法については，動画に紐づくメタ情報を用いて，所望の音声データを構築する方法を提案した． (3) 音響イベントとシーン同時分析においては，Webデータのようなノイジーなデータにしばしば登場する乱出データを分析する方法を提案した．
現在までの達成度 (区分)	現在までの達成度 (区分) 2: おおむね順調に進展している理由当初の予定通りに進行している．
今後の研究の推進方策	大規模音声音響モデル，大規模音声コーパスの頒布を進める．

報告書

(2件)

2023 実績報告書
2022 実績報告書

研究成果
(22件)

すべて 2024 2023 2022 その他

すべて国際共同研究 (1件) 雑誌論文 (3件) (うち国際共著 1件、査読あり 3件、オープンアクセス 3件) 学会発表 (18件) (うち国際学会 8件、招待講演 1件)

[国際共同研究] Carnegie mellon university(米国)
- 関連する報告書
  2023 実績報告書
[雑誌論文] SelfRemaster: Self-Supervised Speech Restoration for Historical Audio Resources2024
- 著者名/発表者名
  Takaaki Saeki , Shinnosuke Takamichi , Tomohiko Nakamura , Naoko Tanji , and Hiroshi Saruwatari
- 雑誌名
  
  IEEE Access
  
  巻: -
- 関連する報告書
  2023 実績報告書
- 査読あり / オープンアクセス
[雑誌論文] Text-Inductive Graphone-Based Language Adaptation for Low-Resource Speech Synthesis2024
- 著者名/発表者名
  Takaaki Saeki , Soumi Maiti , Xinjian Li , Shinji Watanabe , Shinnosuke Takamichi , and Hiroshi Saruwatari
- 雑誌名
  
  IEEE/ACM Transactions on Audio, Speech, and Language Processing
  
  巻: -
- 関連する報告書
  2023 実績報告書
- 査読あり / オープンアクセス / 国際共著
[雑誌論文] Onoma-to-wave: Environmental Sound Synthesis from Onomatopoeic Words2022
- 著者名/発表者名
  Yuki Okamoto, Keisuke Imoto, Shinnosuke Takamichi, Ryosuke Yamanishi, Takahiro Fukumori, and Yoichi Yamashita
- 雑誌名
  
  APSIPA Transactions on Signal and Information Processing
  
  巻: 11 ページ: 1-20
- 関連する報告書
  2022 実績報告書
- 査読あり / オープンアクセス
[学会発表] 環境音に対する日本語自由記述文コーパスとベンチマーク分析2024
- 著者名/発表者名
  岡本悠希 , 高道慎之介 , 森松亜依 , 渡邊亞椰 , 井本桂右 , and 山下洋一
- 学会等名
  言語処理学会全国大会
- 関連する報告書
  2023 実績報告書
[学会発表] Coco-Nut: 自由記述文による声質制御に向けた多話者音声・声質自由記述ペアデータセット2023
- 著者名/発表者名
  渡邊亞椰 , 高道慎之介 , 齋藤佑樹 , 辛徳泰 , and 猿渡洋
- 学会等名
  日本音響学会秋季研究発表会
- 関連する報告書
  2023 実績報告書
[学会発表] Coco-Nut: Corpus of Japanese Utterance and Voice Characteristics Description for Prompt-based Control2023
- 著者名/発表者名
  Aya Watanabe , Shinnosuke Takamichi , Yuki Saito , Wataru Nakata , Detai Xin , and Hiroshi Saruwatari
- 学会等名
  IEEE Automatic Speech Recogiton and Understanding Workshop
- 関連する報告書
  2023 実績報告書
- 国際学会
[学会発表] 深層学習で獲得される音声シンボルは自然言語シンボルと同様に Zipf 則に従うか？2023
- 著者名/発表者名
  前田紘希 , 高道慎之介 , 朴浚鎔 , and 猿渡洋
- 学会等名
  日本音響学会秋季研究発表会
- 関連する報告書
  2023 実績報告書
[学会発表] 学習・評価ループを用いたデータ選択によるダークデータからの音声合成2023
- 著者名/発表者名
  関健太郎 , 高道慎之介 , 佐伯高明 , and 猿渡洋
- 学会等名
  日本音響学会春季研究発表会
- 関連する報告書
  2023 実績報告書
[学会発表] Visual onoma-to-wave: environmental sound synthesis from visual onomatopoeias and sound-source images2023
- 著者名/発表者名
  Hien Ohnaka , Shinnosuke Takamichi , Keisuke Imoto , Yuki Okamoto , Kazuki Fujii , and Hiroshi Saruwatari
- 学会等名
  Proceedings of IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)
- 関連する報告書
  2023 実績報告書
- 国際学会
[学会発表] How Generative Spoken Language Model Encodes Noisy Speech: Investigation from Phonetics to Syntactics2023
- 著者名/発表者名
  Joonyong Park , Shinnosuke Takamichi , Tomohiko Nakamura , Kentaro Seki , Detai Xin , and Hiroshi Saruwatari
- 学会等名
  Proceedings of Interspeech
- 関連する報告書
  2023 実績報告書
- 国際学会
[学会発表] Text-to-speech synthesis from dark data with evaluation-in-the-loop data selection2023
- 著者名/発表者名
  Kentaro Seki , Shinnosuke Takamichi , Takaaki Saeki , and Hiroshi Saruwatari
- 学会等名
  Proceedings of IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)
- 関連する報告書
  2023 実績報告書
- 国際学会
[学会発表] Joint Analysis of Acoustic Scenes and Sound Events Based on Semi-Supervised Approach2023
- 著者名/発表者名
  Ami Igarashi, Shunsuke Tsubaki, Daisuke Niizumi, Daiki Takeuchi, Noboru Harada, and Keisuke Imoto
- 学会等名
  Proc. Asia-Pacific Signal and Information Processing Association Annual Summit and Conference (APSIPA ASC)
- 関連する報告書
  2023 実績報告書
- 国際学会
[学会発表] アノテータごとのばらつきを考慮した音響イベント検出2023
- 著者名/発表者名
  古賀直樹, 坂東宣昭, 井本桂右
- 学会等名
  情報処理学会第86回全国大会
- 関連する報告書
  2023 実績報告書
[学会発表] 環境音分析における事前学習済みモデルのバイアス調査2023
- 著者名/発表者名
  井上かほり, 井本桂右
- 学会等名
  日本音響学会 2024年春季研究発表会
- 関連する報告書
  2023 実績報告書
[学会発表] 計算機による環境音の理解・解釈に向けた統合的コンペティションDCASE Challengeへの招待2023
- 著者名/発表者名
  井本桂右
- 学会等名
  日本音響学会 2023年春季研究発表会
- 関連する報告書
  2022 実績報告書
- 招待講演
[学会発表] Visual onoma-to-wave：画像オノマトペと音源画像を利用した環境音合成の提案2023
- 著者名/発表者名
  大中緋慧
- 学会等名
  電子情報通信学会音声研究会
- 関連する報告書
  2022 実績報告書
[学会発表] Visual Onoma-to-Wave: Environmental Sound Synthesis From Visual Onomatopoeias and Sound-Source Images2023
- 著者名/発表者名
  Hien Ohnaka
- 学会等名
  Proc. IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)
- 関連する報告書
  2022 実績報告書
- 国際学会
[学会発表] Text-to-speech synthesis from dark data with evaluation-in-the-loop data selection2023
- 著者名/発表者名
  Kentaro Seki
- 学会等名
  Proc. IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)
- 関連する報告書
  2022 実績報告書
- 国際学会
[学会発表] 学習・評価ループを用いたデータ選択によるダークデータからの音声合成2023
- 著者名/発表者名
  関健太郎
- 学会等名
  日本音響学会 2023年春季研究発表会
- 関連する報告書
  2022 実績報告書
[学会発表] 環境音合成の入力情報に応じた主観評価手法の検討2022
- 著者名/発表者名
  岡本悠希
- 学会等名
  日本音響学会 2022年秋季研究発表会
- 関連する報告書
  2022 実績報告書
[学会発表] How Should We Evaluate Synthesized Environmental Sounds2022
- 著者名/発表者名
  Yuki Okamoto
- 学会等名
  Proc. Asia-Pacific Signal and Information Processing Association Annual Summit and Conference (APSIPA ASC)
- 関連する報告書
  2022 実績報告書
- 国際学会

音声音響ダークデータ採掘技術の研究

研究代表者

高道 慎之介 慶應義塾大学, 理工学部(矢上), 准教授 (90784330)

17,160千円 (直接経費: 13,200千円、間接経費: 3,960千円)

現在までの達成度 (区分)

理由

報告書

研究成果

[国際共同研究] Carnegie mellon university(米国)

関連する報告書

[雑誌論文] SelfRemaster: Self-Supervised Speech Restoration for Historical Audio Resources2024

著者名/発表者名

雑誌名

関連する報告書

[雑誌論文] Text-Inductive Graphone-Based Language Adaptation for Low-Resource Speech Synthesis2024

著者名/発表者名

雑誌名

関連する報告書

[雑誌論文] Onoma-to-wave: Environmental Sound Synthesis from Onomatopoeic Words2022

著者名/発表者名

雑誌名

関連する報告書

[学会発表] 環境音に対する日本語自由記述文コーパスとベンチマーク分析2024

著者名/発表者名

学会等名

関連する報告書

[学会発表] Coco-Nut: 自由記述文による声質制御に向けた多話者音声・声質自由記述ペアデータセット2023

著者名/発表者名

学会等名

関連する報告書

[学会発表] Coco-Nut: Corpus of Japanese Utterance and Voice Characteristics Description for Prompt-based Control2023

著者名/発表者名

学会等名

関連する報告書

[学会発表] 深層学習で獲得される音声シンボルは自然言語シンボルと同様に Zipf 則に従うか？2023

著者名/発表者名

学会等名

関連する報告書

[学会発表] 学習・評価ループを用いたデータ選択によるダークデータからの音声合成2023

著者名/発表者名

学会等名

関連する報告書

[学会発表] Visual onoma-to-wave: environmental sound synthesis from visual onomatopoeias and sound-source images2023

著者名/発表者名

学会等名

関連する報告書

[学会発表] How Generative Spoken Language Model Encodes Noisy Speech: Investigation from Phonetics to Syntactics2023

著者名/発表者名

学会等名

関連する報告書

[学会発表] Text-to-speech synthesis from dark data with evaluation-in-the-loop data selection2023

著者名/発表者名

学会等名

関連する報告書

[学会発表] Joint Analysis of Acoustic Scenes and Sound Events Based on Semi-Supervised Approach2023

著者名/発表者名

学会等名

関連する報告書

[学会発表] アノテータごとのばらつきを考慮した音響イベント検出2023

著者名/発表者名

学会等名

関連する報告書

[学会発表] 環境音分析における事前学習済みモデルのバイアス調査2023

著者名/発表者名

学会等名

関連する報告書

[学会発表] 計算機による環境音の理解・解釈に向けた統合的コンペティションDCASE Challengeへの招待2023

著者名/発表者名

学会等名

関連する報告書

[学会発表] Visual onoma-to-wave：画像オノマトペと音源画像を利用した環境音合成の提案2023

著者名/発表者名

学会等名

関連する報告書

[学会発表] Visual Onoma-to-Wave: Environmental Sound Synthesis From Visual Onomatopoeias and Sound-Source Images2023

著者名/発表者名

学会等名

関連する報告書

[学会発表] Text-to-speech synthesis from dark data with evaluation-in-the-loop data selection2023

著者名/発表者名

高道慎之介慶應義塾大学, 理工学部(矢上), 准教授 (90784330)