2023 Fiscal Year Annual Research Report

人間の介入可能性を考慮した音響情景分析のための深層分析合成基盤の開拓とその深化

Research Project

Project/Area Number	23H03418
Allocation Type	Single-year Grants
Research Institution	National Institute of Advanced Industrial Science and Technology
Principal Investigator	中村友彦国立研究開発法人産業技術総合研究所, 情報・人間工学領域, 主任研究員 (50866308)
Co-Investigator(Kenkyū-buntansha)	高道慎之介東京大学, 大学院情報理工学系研究科, 講師 (90784330) 矢田部浩平東京農工大学, 工学(系)研究科(研究院), 准教授 (20801278)
Project Period (FY)	2023-04-01 – 2027-03-31
Keywords	音響情景分析 / 人間介入型 / 深層分析合成 / 音源分離
Outline of Annual Research Achievements	本年度は，深層分析合成に利用可能な信号処理モジュールについて研究を行った．具体的には，楽音でよく用いられるオーディオエフェクタを微分可能なモジュールとして用いて，深層学習モデルと組み合わせる手法を検討した．特に，微分可能なモジュールとして実装されたコンプレッサーを深層学習と組み合わせることで，加工済みの音響信号から適用されたコンプレッサーのパラメータを推定する方法を検討した．この検討から，コンプレッサーのパラメータの種類により，推定難度に差があることを明らかにした．また，音楽では複数種類のエフェクタを適用して所望の音響信号に加工することが多い．そこで，複数のエフェクタが適用された音響信号から，原信号とそれらのエフェクタの適用順とパラメータを推定する方法も検討した．提案手法によりある程度の精度でエフェクタの種類を推定できた．また，推定したエフェクタの情報を用いることで，信号の復元性能が向上することも示した．また，音声に対する深層分析合成手法として，音声強調（音声と雑音が混ざった音から音声のみを抽出）と音声合成を内包した劣化音声（例えば，古い録音機器で収録された音声信号）からクリーン音声を復元する手法を提案した．具体的には，音響信号処理の知見をもとに，劣化音声を分析するモジュール，分析結果から音声を合成するモジュール，入力音声の劣化を模倣するモジュールからなる深層分析合成モデルを構築した．このモデルを適切な事前学習と組み合わせて，入力劣化音声を自己符号化することで，劣化前の音声信号なしに学習できる．音声合成実験により，劣化を含む歴史的音声からクリーンな音声をある程度復元できることを実証しただけでなく，劣化音声に含まれる劣化を他の音声信号に転写できることも確認した．
Current Status of Research Progress	Current Status of Research Progress 2: Research has progressed on the whole more than it was originally planned. Reason 音楽に関する研究では，深層分析合成に利用可能な信号処理モジュールの検討を進めている．単音に対してではあるものの，推定に介入できる可能性を持ったモジュールが構築できており，来年度以降に繋がる研究成果を得た．これらの成果は国内会議において発表を行った．音声に関する研究に関しては，劣化音声のみから学習可能な手法を提案し，その成果は査読付き国際論文誌に採録された．そのため，全体として順調に進展している．
Strategy for Future Research Activity	今年度得られた成果を基に微分可能な信号処理モジュールの検討を進める．また，それらの検討を基に混合音に対する手法構築にも着手する．

Research Products
(13 results)

All 2024 2023

All Journal Article (1 results) (of which Peer Reviewed: 1 results, Open Access: 1 results) Presentation (12 results) (of which Int'l Joint Research: 3 results, Invited: 1 results)

[Journal Article] SelfRemaster: Self-Supervised Speech Restoration for Historical Audio Resources2023
- Author(s)
  Saeki Takaaki、Takamichi Shinnosuke、Nakamura Tomohiko、Tanji Naoko、Saruwatari Hiroshi
- Journal Title
  
  IEEE Access
  
  Volume: 11 Pages: 144831～144843
- DOI
  10.1109/ACCESS.2023.3345027
- Peer Reviewed / Open Access
[Presentation] テキスト生成の自動評価尺度に基づく音声生成の自動評価2024
- Author(s)
  佐伯高明, マイティソウミ, 高道慎之介, 渡部晋治, 猿渡洋
- Organizer
  電子情報通信学会音声研究会
[Presentation] 複数のオーディオエフェクトが適用された楽音に対するエフェクトチェイン推定と原音復元2024
- Author(s)
  武伯寒, 渡邉研斗, 中塚貴之, Tian Cheng, 中野倫靖, 後藤真孝, 高道慎之介, 猿渡洋
- Organizer
  日本音響学会春季研究発表会
[Presentation] 歌唱者間相互作用を再現するDNN重唱歌声合成の検討2024
- Author(s)
  兵藤弘明, 高道慎之介, 中村友彦, 小口純矢, 猿渡洋
- Organizer
  情報処理学会音楽情報科学研究会
[Presentation] コンプレッサー処理された信号の復元に関する検討2024
- Author(s)
  王檬, 赤石夏輝, 中村友彦, 山田宏樹, 矢田部浩平
- Organizer
  日本音響学会春季研究発表会
[Presentation] Coco-Nut: Corpus of Japanese Utterance and Voice Characteristics Description for Prompt-based Control2023
- Author(s)
  Aya Watanabe , Shinnosuke Takamichi , Yuki Saito , Wataru Nakata , Detai Xin , Hiroshi Saruwatari
- Organizer
  IEEE Automatic Speech Recogiton and Understanding Workshop
- Int'l Joint Research
[Presentation] HumanDiffusion: diffusion model using perceptual gradients2023
- Author(s)
  Yota Ueda , Shinnosuke Takamichi , Yuki Saito , Norihiro Takamune , Hiroshi Saruwatari
- Organizer
  INTERSPEECH
- Int'l Joint Research
[Presentation] Coco-Nut: 自由記述文による声質制御に向けた多話者音声・声質自由記述ペアデータセット2023
- Author(s)
  渡邊亞椰 , 高道慎之介 , 齋藤佑樹 , 辛徳泰 , 猿渡洋
- Organizer
  日本音響学会秋季研究発表会
[Presentation] 深層学習で獲得される音声シンボルは自然言語シンボルと同様に Zipf 則に従うか？2023
- Author(s)
  前田紘希 , 高道慎之介 , 朴浚鎔 , 猿渡洋
- Organizer
  日本音響学会秋季研究発表会
[Presentation] Universal Sound Separationへのサンプリング周波数非依存畳み込み層の適用2023
- Author(s)
  中村友彦, 矢田部浩平
- Organizer
  日本音響学会秋季研究発表会
[Presentation] How Generative Spoken Language Modeling Encodes Noisy Speech: Investigation from Phonetics to Syntactics2023
- Author(s)
  Joonyong Park, Shinnosuke Takamichi, Tomohiko Nakamura, Kentaro Seki, Detai Xin, Hiroshi Saruwatari
- Organizer
  INTERSPEECH
- Int'l Joint Research
[Presentation] サンプリング周波数非依存畳み込み層における非整数ストライド処理アルゴリズム2023
- Author(s)
  今村奏海, 中村友彦, 高宗典玄, 矢田部浩平, 猿渡洋
- Organizer
  日本音響学会秋季研究発表会
[Presentation] 音源分離技術の基礎と応用～音源分離チョットワカルになるための手引き～2023
- Author(s)
  北村大地, 中村友彦
- Organizer
  音学シンポジウム2023
- Invited

2023 Fiscal Year Annual Research Report

人間の介入可能性を考慮した音響情景分析のための深層分析合成基盤の開拓とその深化

Principal Investigator

中村 友彦 国立研究開発法人産業技術総合研究所, 情報・人間工学領域, 主任研究員 (50866308)

Current Status of Research Progress

Reason

Research Products

[Journal Article] SelfRemaster: Self-Supervised Speech Restoration for Historical Audio Resources2023

Author(s)

Journal Title

DOI

[Presentation] テキスト生成の自動評価尺度に基づく音声生成の自動評価2024

Author(s)

Organizer

[Presentation] 複数のオーディオエフェクトが適用された楽音に対するエフェクトチェイン推定と原音復元2024

Author(s)

Organizer

[Presentation] 歌唱者間相互作用を再現するDNN重唱歌声合成の検討2024

Author(s)

Organizer

[Presentation] コンプレッサー処理された信号の復元に関する検討2024

Author(s)

Organizer

[Presentation] Coco-Nut: Corpus of Japanese Utterance and Voice Characteristics Description for Prompt-based Control2023

Author(s)

Organizer

[Presentation] HumanDiffusion: diffusion model using perceptual gradients2023

Author(s)

Organizer

[Presentation] Coco-Nut: 自由記述文による声質制御に向けた多話者音声・声質自由記述ペアデータセット2023

Author(s)

Organizer

[Presentation] 深層学習で獲得される音声シンボルは自然言語シンボルと同様に Zipf 則に従うか？2023

Author(s)

Organizer

[Presentation] Universal Sound Separationへのサンプリング周波数非依存畳み込み層の適用2023

Author(s)

Organizer

[Presentation] How Generative Spoken Language Modeling Encodes Noisy Speech: Investigation from Phonetics to Syntactics2023

Author(s)

Organizer

[Presentation] サンプリング周波数非依存畳み込み層における非整数ストライド処理アルゴリズム2023

Author(s)

Organizer

[Presentation] 音源分離技術の基礎と応用～音源分離チョットワカルになるための手引き～2023

Author(s)

Organizer

中村友彦国立研究開発法人産業技術総合研究所, 情報・人間工学領域, 主任研究員 (50866308)