• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 前のページに戻る

人間の介入可能性を考慮した音響情景分析のための深層分析合成基盤の開拓とその深化

研究課題

研究課題/領域番号 23K28108
補助金の研究課題番号 23H03418 (2023)
研究種目

基盤研究(B)

配分区分基金 (2024)
補助金 (2023)
応募区分一般
審査区分 小区分61010:知覚情報処理関連
研究機関国立研究開発法人産業技術総合研究所

研究代表者

中村 友彦  国立研究開発法人産業技術総合研究所, 情報・人間工学領域, 主任研究員 (50866308)

研究分担者 矢田部 浩平  東京農工大学, 工学(系)研究科(研究院), 准教授 (20801278)
高道 慎之介  慶應義塾大学, 理工学部(矢上), 准教授 (90784330)
研究期間 (年度) 2023-04-01 – 2027-03-31
研究課題ステータス 交付 (2024年度)
配分額 *注記
18,590千円 (直接経費: 14,300千円、間接経費: 4,290千円)
2026年度: 4,550千円 (直接経費: 3,500千円、間接経費: 1,050千円)
2025年度: 4,550千円 (直接経費: 3,500千円、間接経費: 1,050千円)
2024年度: 4,550千円 (直接経費: 3,500千円、間接経費: 1,050千円)
2023年度: 4,940千円 (直接経費: 3,800千円、間接経費: 1,140千円)
キーワード音響情景分析 / 人間介入型 / 深層分析合成 / 音源分離
研究開始時の研究の概要

本研究は,人間が介入可能性を考慮しつつ高性能に動作する音響情景分析基盤の構築を目指す.具体的には,深層音響合成(信号処理で確立されたシンセサイザーと深層学習を組み合わせた技術)と,深層音源分離(深層学習を用いた音源分離)技術を融合し,高い分離性能と人間の介入可能性をもつ音源分離の方法論,深層分析合成を創出することを目指す.この技術を応用することで,学習のみを工夫して実用を目指すのではなく,人が介入することで事前に予見し難い要素を含む様々な現場に適応できる音響情景分析手法が実現しうる.これにより,人間の先験的・専門的知識を能動的に導入することが可能となるはずである.

研究実績の概要

本年度は,深層分析合成に利用可能な信号処理モジュールについて研究を行った.具体的には,楽音でよく用いられるオーディオエフェクタを微分可能なモジュールとして用いて,深層学習モデルと組み合わせる手法を検討した.特に,微分可能なモジュールとして実装されたコンプレッサーを深層学習と組み合わせることで,加工済みの音響信号から適用されたコンプレッサーのパラメータを推定する方法を検討した.この検討から,コンプレッサーのパラメータの種類により,推定難度に差があることを明らかにした.また,音楽では複数種類のエフェクタを適用して所望の音響信号に加工することが多い.そこで,複数のエフェクタが適用された音響信号から,原信号とそれらのエフェクタの適用順とパラメータを推定する方法も検討した.提案手法によりある程度の精度でエフェクタの種類を推定できた.また,推定したエフェクタの情報を用いることで,信号の復元性能が向上することも示した.
また,音声に対する深層分析合成手法として,音声強調(音声と雑音が混ざった音から音声のみを抽出)と音声合成を内包した劣化音声(例えば,古い録音機器で収録された音声信号)からクリーン音声を復元する手法を提案した.具体的には,音響信号処理の知見をもとに,劣化音声を分析するモジュール,分析結果から音声を合成するモジュール,入力音声の劣化を模倣するモジュールからなる深層分析合成モデルを構築した.このモデルを適切な事前学習と組み合わせて,入力劣化音声を自己符号化することで,劣化前の音声信号なしに学習できる.音声合成実験により,劣化を含む歴史的音声からクリーンな音声をある程度復元できることを実証しただけでなく,劣化音声に含まれる劣化を他の音声信号に転写できることも確認した.

現在までの達成度 (区分)
現在までの達成度 (区分)

2: おおむね順調に進展している

理由

音楽に関する研究では,深層分析合成に利用可能な信号処理モジュールの検討を進めている.単音に対してではあるものの,推定に介入できる可能性を持ったモジュールが構築できており,来年度以降に繋がる研究成果を得た.これらの成果は国内会議において発表を行った.音声に関する研究に関しては,劣化音声のみから学習可能な手法を提案し,その成果は査読付き国際論文誌に採録された.そのため,全体として順調に進展している.

今後の研究の推進方策

今年度得られた成果を基に微分可能な信号処理モジュールの検討を進める.また,それらの検討を基に混合音に対する手法構築にも着手する.

報告書

(1件)
  • 2023 実績報告書
  • 研究成果

    (13件)

すべて 2024 2023

すべて 雑誌論文 (1件) (うち査読あり 1件、 オープンアクセス 1件) 学会発表 (12件) (うち国際学会 3件、 招待講演 1件)

  • [雑誌論文] SelfRemaster: Self-Supervised Speech Restoration for Historical Audio Resources2023

    • 著者名/発表者名
      Saeki Takaaki、Takamichi Shinnosuke、Nakamura Tomohiko、Tanji Naoko、Saruwatari Hiroshi
    • 雑誌名

      IEEE Access

      巻: 11 ページ: 144831-144843

    • DOI

      10.1109/access.2023.3345027

    • 関連する報告書
      2023 実績報告書
    • 査読あり / オープンアクセス
  • [学会発表] テキスト生成の自動評価尺度に基づく音声生成の自動評価2024

    • 著者名/発表者名
      佐伯 高明, マイティ ソウミ, 高道 慎之介, 渡部 晋治, 猿渡 洋
    • 学会等名
      電子情報通信学会 音声研究会
    • 関連する報告書
      2023 実績報告書
  • [学会発表] 複数のオーディオエフェクトが適用された楽音に対するエフェクトチェイン推定と原音復元2024

    • 著者名/発表者名
      武 伯寒, 渡邉 研斗, 中塚 貴之, Tian Cheng, 中野 倫靖, 後藤 真孝, 高道 慎之介, 猿渡 洋
    • 学会等名
      日本音響学会春季研究発表会
    • 関連する報告書
      2023 実績報告書
  • [学会発表] 歌唱者間相互作用を再現するDNN重唱歌声合成の検討2024

    • 著者名/発表者名
      兵藤 弘明, 高道 慎之介, 中村 友彦, 小口 純矢, 猿渡 洋
    • 学会等名
      情報処理学会 音楽情報科学研究会
    • 関連する報告書
      2023 実績報告書
  • [学会発表] コンプレッサー処理された信号の復元に関する検討2024

    • 著者名/発表者名
      王 檬, 赤石 夏輝, 中村 友彦, 山田 宏樹, 矢田部 浩平
    • 学会等名
      日本音響学会春季研究発表会
    • 関連する報告書
      2023 実績報告書
  • [学会発表] Coco-Nut: Corpus of Japanese Utterance and Voice Characteristics Description for Prompt-based Control2023

    • 著者名/発表者名
      Aya Watanabe , Shinnosuke Takamichi , Yuki Saito , Wataru Nakata , Detai Xin , Hiroshi Saruwatari
    • 学会等名
      IEEE Automatic Speech Recogiton and Understanding Workshop
    • 関連する報告書
      2023 実績報告書
    • 国際学会
  • [学会発表] HumanDiffusion: diffusion model using perceptual gradients2023

    • 著者名/発表者名
      Yota Ueda , Shinnosuke Takamichi , Yuki Saito , Norihiro Takamune , Hiroshi Saruwatari
    • 学会等名
      INTERSPEECH
    • 関連する報告書
      2023 実績報告書
    • 国際学会
  • [学会発表] Coco-Nut: 自由記述文による声質制御に向けた多話者音声・声質自由記述ペアデータセット2023

    • 著者名/発表者名
      渡邊 亞椰 , 高道 慎之介 , 齋藤 佑樹 , 辛 徳泰 , 猿渡 洋
    • 学会等名
      日本音響学会秋季研究発表会
    • 関連する報告書
      2023 実績報告書
  • [学会発表] 深層学習で獲得される音声シンボルは自然言語シンボルと同様に Zipf 則に従うか?2023

    • 著者名/発表者名
      前田 紘希 , 高道 慎之介 , 朴 浚鎔 , 猿渡 洋
    • 学会等名
      日本音響学会秋季研究発表会
    • 関連する報告書
      2023 実績報告書
  • [学会発表] Universal Sound Separationへのサンプリング周波数非依存畳み込み層の適用2023

    • 著者名/発表者名
      中村 友彦, 矢田部 浩平
    • 学会等名
      日本音響学会秋季研究発表会
    • 関連する報告書
      2023 実績報告書
  • [学会発表] How Generative Spoken Language Modeling Encodes Noisy Speech: Investigation from Phonetics to Syntactics2023

    • 著者名/発表者名
      Joonyong Park, Shinnosuke Takamichi, Tomohiko Nakamura, Kentaro Seki, Detai Xin, Hiroshi Saruwatari
    • 学会等名
      INTERSPEECH
    • 関連する報告書
      2023 実績報告書
    • 国際学会
  • [学会発表] サンプリング周波数非依存畳み込み層における非整数ストライド処理アルゴリズム2023

    • 著者名/発表者名
      今村 奏海, 中村 友彦, 高宗 典玄, 矢田部 浩平, 猿渡 洋
    • 学会等名
      日本音響学会秋季研究発表会
    • 関連する報告書
      2023 実績報告書
  • [学会発表] 音源分離技術の基礎と応用~音源分離チョットワカルになるための手引き~2023

    • 著者名/発表者名
      北村 大地, 中村 友彦
    • 学会等名
      音学シンポジウム2023
    • 関連する報告書
      2023 実績報告書
    • 招待講演

URL: 

公開日: 2023-04-18   更新日: 2024-12-25  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi