統一的・継続的モデル学習による環境音分析の研究

研究課題

研究課題/領域番号	23K16908
研究種目	若手研究
配分区分	基金
審査区分	小区分61010:知覚情報処理関連
研究機関	同志社大学
研究代表者	井本桂右同志社大学, 文化情報学部, 准教授 (90802116)
研究期間 (年度)	2023-04-01 – 2026-03-31
研究課題ステータス	交付 (2023年度)
配分額 *注記	4,550千円 (直接経費: 3,500千円、間接経費: 1,050千円) 2025年度: 1,560千円 (直接経費: 1,200千円、間接経費: 360千円) 2024年度: 1,690千円 (直接経費: 1,300千円、間接経費: 390千円) 2023年度: 1,300千円 (直接経費: 1,000千円、間接経費: 300千円)
キーワード	環境音分析 / 音響シーン分類 / 音響イベント検出 / 継続学習 / コーパス / 深層学習
研究開始時の研究の概要	本研究では，音声や楽音に限らないあらゆる音を対象とした，環境音分析のための機械学習手法について検討する．とりわけ，1つの機械学習モデルを複数の環境音分析タスク（音響イベント検出・音響シーン分類・音響キャプション生成，異常音検知など）に適用可能な，統一的モデル学習法の確立，ならびに，分析対象とする環境音の種類が変化・増加しても，学習済みのモデルを継続して利用可能な継続的モデル学習法の検討を行う.
研究実績の概要	本研究課題の目的は，1つの機械学習モデルを複数の環境音分析タスクに適用可能な，統一的モデル学習手法の確立，ならびに，分析対象とする環境音の種類が変化/増加した場合においても，学習済みのモデルを継続して利用可能な継続的モデル学習手法の確立である．とりわけ，本研究課題では，(1)複数の環境音分析タスクに横断的に利用可能な大規模データセットの構築とオープンデータとしての公開，ならびに，(2)複数の環境音分析タスクをコンパクトな一つのモデルで分析できるモデル学習手法の開発と性能評価，また，(3)学習済みデータの永続的な保存を不要とする継続的モデル学習手法の開発と性能評価を実施する．令和5年度は，(1)音響イベント検出と音響シーン分析に利用可能なタスク横断型の大規模データセットを構築した．構築したデータセットはGitHubやZenodoなどのオープンレポジトリにて公開する準備を進めている．また，複数言語の説明文が付与された環境音データセット構築を進め，音響キャプション生成の基本性能分析を実施した．さらに，(2)(3)音響シーン分類と音響イベント検出を同時に分析可能で，かつ，知識蒸留に基づく継続的モデル学習手法を開発し，従来の環境音分析手法を大幅に上回る性能を達成した．これらの研究成果は音響信号処理のトップ会議であるICASSP2024やAPSIPA ASC2023などに論文投稿して採択された他，4件の国内学会発表を行った．また，関連国内学会で受賞するなど大いに注目を集めた．
現在までの達成度 (区分)	現在までの達成度 (区分) 2: おおむね順調に進展している理由国際会議論文２編（うち１編は分野のトップ会議であるICASSP），国内学会発表４件という成果が得られた．また，２編の解説論文を執筆し，当該研究分野の認知度向上に大きく貢献した．研究成果の一部は令和6年度に計画していたものであり，概ね順調に進展していると言える．
今後の研究の推進方策	順調に研究が進展しており，当初の計画から大きな変更は必要ないと考えている．今後は，(2)複数の環境音分析タスクをコンパクトな一つのモデルで分析できるモデル学習法の開発と性能評価，(3)学習済みのデータの永続的な保存を不要とする継続的モデル学習法の検討を進める．とりわけ，３以上の環境音タスクを同時に分析可能な手法の開発や高精度化を進める．

報告書

(1件)

2023 実施状況報告書

研究成果
(8件)

すべて 2024 2023

すべて雑誌論文 (2件) (うちオープンアクセス 1件) 学会発表 (6件) (うち国際学会 2件)

[雑誌論文] DCASE Challenge: 環境音分析・理解のための統合的コンペティション2023
- 著者名/発表者名
  井本桂右
- 雑誌名
  
  日本音響学会誌
  
  巻: 79 号: 9 ページ: 470-476
- DOI
  10.20697/jasj.79.9_470
- ISSN
  0369-4232, 2432-2040
- 年月日
  2023-09-01
- 関連する報告書
  2023 実施状況報告書
- オープンアクセス
[雑誌論文] 環境音分析2023
- 著者名/発表者名
  井本桂右
- 雑誌名
  
  電子情報通信学会誌
  
  巻: 106 ページ: 774-776
- 関連する報告書
  2023 実施状況報告書
[学会発表] アノテータごとのばらつきを考慮した音響イベント検出2024
- 著者名/発表者名
  古賀直樹, 坂東宣昭, 井本桂右
- 学会等名
  情報処理学会第86回全国大会
- 関連する報告書
  2023 実施状況報告書
[学会発表] 環境音に対する日本語自由記述文コーパスとベンチマーク分析2024
- 著者名/発表者名
  岡本悠希, 高道慎之介, 森松亜衣, 渡邊亞椰, 井本桂右, 山下洋一
- 学会等名
  言語処理学会第30回年次大会
- 関連する報告書
  2023 実施状況報告書
[学会発表] 環境音分析における事前学習済みモデルのバイアス調査2024
- 著者名/発表者名
  井上かほり, 井本桂右
- 学会等名
  日本音響学会 2024年春季研究発表会
- 関連する報告書
  2023 実施状況報告書
[学会発表] Voice-to-foley: 環境音を模倣した音声を入力とする環境音合成2024
- 著者名/発表者名
  岡本悠希, 井本桂右, 高道慎之介, 永瀬亮太郎, 福森隆寛, 山下洋一
- 学会等名
  日本音響学会 2024年春季研究発表会
- 関連する報告書
  2023 実施状況報告書
[学会発表] Environmental Sound Synthesis From Vocal Imitations and Sound Event Labels2023
- 著者名/発表者名
  Yuki Okamoto, Keisuke Imoto, Shinnosuke Takamichi, Ryotaro Nagase, Takahiro Fukumori, and Yoichi Yamashita
- 学会等名
  IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)
- 関連する報告書
  2023 実施状況報告書
- 国際学会
[学会発表] Joint Analysis of Acoustic Scenes and Sound Events Based on Semi-Supervised Approach2023
- 著者名/発表者名
  Ami Igarashi, Shunsuke Tsubaki, Daisuke Niizumi, Daiki Takeuchi, Noboru Harada, and Keisuke Imoto
- 学会等名
  Asia-Pacific Signal and Information Processing Association Annual Summit and Conference (APSIPA ASC)
- 関連する報告書
  2023 実施状況報告書
- 国際学会

統一的・継続的モデル学習による環境音分析の研究

研究代表者

井本 桂右 同志社大学, 文化情報学部, 准教授 (90802116)

4,550千円 (直接経費: 3,500千円、間接経費: 1,050千円)

現在までの達成度 (区分)

理由

報告書

研究成果

[雑誌論文] DCASE Challenge: 環境音分析・理解のための統合的コンペティション2023

著者名/発表者名

雑誌名

DOI

ISSN

年月日

関連する報告書

[雑誌論文] 環境音分析2023

著者名/発表者名

雑誌名

関連する報告書

[学会発表] アノテータごとのばらつきを考慮した音響イベント検出2024

著者名/発表者名

学会等名

関連する報告書

[学会発表] 環境音に対する日本語自由記述文コーパスとベンチマーク分析2024

著者名/発表者名

学会等名

関連する報告書

[学会発表] 環境音分析における事前学習済みモデルのバイアス調査2024

著者名/発表者名

学会等名

関連する報告書

[学会発表] Voice-to-foley: 環境音を模倣した音声を入力とする環境音合成2024

著者名/発表者名

学会等名

関連する報告書

[学会発表] Environmental Sound Synthesis From Vocal Imitations and Sound Event Labels2023

著者名/発表者名

学会等名

関連する報告書

[学会発表] Joint Analysis of Acoustic Scenes and Sound Events Based on Semi-Supervised Approach2023

著者名/発表者名

学会等名

関連する報告書

井本桂右同志社大学, 文化情報学部, 准教授 (90802116)