研究課題/領域番号 |
23K16908
|
研究種目 |
若手研究
|
配分区分 | 基金 |
審査区分 |
小区分61010:知覚情報処理関連
|
研究機関 | 同志社大学 |
研究代表者 |
井本 桂右 同志社大学, 文化情報学部, 准教授 (90802116)
|
研究期間 (年度) |
2023-04-01 – 2026-03-31
|
研究課題ステータス |
交付 (2023年度)
|
配分額 *注記 |
4,550千円 (直接経費: 3,500千円、間接経費: 1,050千円)
2025年度: 1,560千円 (直接経費: 1,200千円、間接経費: 360千円)
2024年度: 1,690千円 (直接経費: 1,300千円、間接経費: 390千円)
2023年度: 1,300千円 (直接経費: 1,000千円、間接経費: 300千円)
|
キーワード | 環境音分析 / 音響シーン分類 / 音響イベント検出 / 継続学習 / コーパス / 深層学習 |
研究開始時の研究の概要 |
本研究では,音声や楽音に限らないあらゆる音を対象とした,環境音分析のための機械学習手法について検討する.とりわけ,1つの機械学習モデルを複数の環境音分析タスク(音響イベント検出・音響シーン分類・音響キャプション生成,異常音検知など)に適用可能な,統一的モデル学習法の確立,ならびに,分析対象とする環境音の種類が変化・増加しても,学習済みのモデルを継続して利用可能な継続的モデル学習法の検討を行う.
|
研究実績の概要 |
本研究課題の目的は,1つの機械学習モデルを複数の環境音分析タスクに適用可能な,統一的モデル学習手法の確立,ならびに,分析対象とする環境音の種類が変化/増加した場合においても,学習済みのモデルを継続して利用可能な継続的モデル学習手法の確立である.とりわけ,本研究課題では,(1)複数の環境音分析タスクに横断的に利用可能な大規模データセットの構築とオープンデータとしての公開,ならびに,(2)複数の環境音分析タスクをコンパクトな一つのモデルで分析できるモデル学習手法の開発と性能評価,また,(3)学習済みデータの永続的な保存を不要とする継続的モデル学習手法の開発と性能評価を実施する. 令和5年度は,(1)音響イベント検出と音響シーン分析に利用可能なタスク横断型の大規模データセットを構築した.構築したデータセットはGitHubやZenodoなどのオープンレポジトリにて公開する準備を進めている.また,複数言語の説明文が付与された環境音データセット構築を進め,音響キャプション生成の基本性能分析を実施した.さらに,(2)(3)音響シーン分類と音響イベント検出を同時に分析可能で,かつ,知識蒸留に基づく継続的モデル学習手法を開発し,従来の環境音分析手法を大幅に上回る性能を達成した.これらの研究成果は音響信号処理のトップ会議であるICASSP2024やAPSIPA ASC2023などに論文投稿して採択された他,4件の国内学会発表を行った.また,関連国内学会で受賞するなど大いに注目を集めた.
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
国際会議論文2編(うち1編は分野のトップ会議であるICASSP),国内学会発表4件という成果が得られた.また,2編の解説論文を執筆し,当該研究分野の認知度向上に大きく貢献した.研究成果の一部は令和6年度に計画していたものであり,概ね順調に進展していると言える.
|
今後の研究の推進方策 |
順調に研究が進展しており,当初の計画から大きな変更は必要ないと考えている.今後は,(2)複数の環境音分析タスクをコンパクトな一つのモデルで分析できるモデル学習法の開発と性能評価,(3)学習済みのデータの永続的な保存を不要とする継続的モデル学習法の検討を進める.とりわけ,3以上の環境音タスクを同時に分析可能な手法の開発や高精度化を進める.
|