研究課題/領域番号 |
23K24870
|
補助金の研究課題番号 |
22H03614 (2022-2023)
|
研究種目 |
基盤研究(B)
|
配分区分 | 基金 (2024) 補助金 (2022-2023) |
応募区分 | 一般 |
審査区分 |
小区分61010:知覚情報処理関連
|
研究機関 | 名古屋工業大学 |
研究代表者 |
徳田 恵一 名古屋工業大学, 工学(系)研究科(研究院), 教授 (20217483)
|
研究分担者 |
橋本 佳 名古屋工業大学, 工学(系)研究科(研究院), 准教授 (10635907)
南角 吉彦 名古屋工業大学, 工学(系)研究科(研究院), 准教授 (80397497)
|
研究期間 (年度) |
2022-04-01 – 2025-03-31
|
研究課題ステータス |
交付 (2024年度)
|
配分額 *注記 |
17,290千円 (直接経費: 13,300千円、間接経費: 3,990千円)
2024年度: 5,200千円 (直接経費: 4,000千円、間接経費: 1,200千円)
2023年度: 5,590千円 (直接経費: 4,300千円、間接経費: 1,290千円)
2022年度: 6,500千円 (直接経費: 5,000千円、間接経費: 1,500千円)
|
キーワード | 深層学習 / 音声 / 生成モデル |
研究開始時の研究の概要 |
従来型のデジタル信号処理理論は、音声・オーディオ信号処理関連の研究分野における最も根本的な考え方として広く普及・定着しているが、単純なモデル構造による制約のため、その性能には限界があった。本研究では、近年急速に技術革新が進んでいる深層学習に基づいた、音声波形の直接モデル化手法を俯瞰・整理した上で、更に従来手法の長所をも併せもった、次世代の標準形となりうる音声波形生成手法の確立を目指すものである。
|
研究実績の概要 |
従来型のデジタル信号処理理論は、音声・オーディオ信号処理関連の研究分野における最も根本的な考え方として広く普及・定着しているが、単純なモデル構造による制約のため、その性能には限界があった。本研究では、深層学習に基づいて信号モデルを構成することにより、新しい形の音声信号生成技術を確立し、音声合成、音声符号化、声質変換、更には楽器音等のオーディオ音声信号生成への応用により、その有効性を検証することを目的とする。特に、多視点的・俯瞰的な観点から、音声波形生成に適したモデル構造を探求するとともに、「従来型モデル構造の部分導入」および「学習データ拡張による制御構造の内在化」のふたつのアプローチにより、従来型の音声波形生成手法の利点である「軽量性」、「制御性」を兼ね備えたモデル構造を明らかにすることを目指す。 本年度に関しては、多視点的・俯瞰的な観点から、音声生成に適した深層学習モデル構造について検討を進めた。また、応用分野に依存しない形の検討を行い、続いて「音声合成・歌声合成」、「音声符号化」、「声質変換」の3つの主要応用分野に依存した検討を開始した。 また、並行して、従来型のモデルの利点である「軽量性」、「制御性」の実現のため、「従来型モデル構造の部分導入」について検討し、微分可能な形の従来型の信号処理モジュールをGPU向きの並列実装することにより、ニューラルネットワークモデルと組み合わせながら、End2endに学習可能な手法を提案し、その有効性を確認した。実装のコア部分についてはオープンソースソフトウェアとして公開した。 また、並行して「学習データ拡張による制御構造の内在化」に関しては、いくつかの方式について検討を進め、他手法との比較を行った。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
1: 当初の計画以上に進展している
理由
計画通りに研究を進行させるだけでなく、特に「従来型モデル構造の部分導入」については、目論見通り「軽量性」を実現するだけでなく、高度な「制御性」を維持しながら、高品質な合成音声を生成可能な方式を提案することができた。成果は、関連分野トップカンファレンスであるICASSP 2023に再録されている。また、実装のコア部分はオープンソースソフトウェアとして公開した。このため、当初の計画以上に進展していると言える。
|
今後の研究の推進方策 |
昨年度には、多視点的・俯瞰的な観点(具体的には、「音声品質」、「計算量/モデルサイズ」、「並列計算時間」等の9つの観点)から、音声生成に適した深層学習モデル構造について検討を進めた。また、先行して検討を開始した並行して、「従来型モデル構造の部分導入」について検討を行い、従来型のモデルの利点である「軽量性」、「制御性」を維持しながら、高品質な合成音声が得られることを確認した。 本年度は、「従来型モデル構造の部分導入」について期待以上の成果が得られたことから、本アプローチを軸に「学習データ拡張による制御構造の内在化」との融合を図る。また、「音声合成・歌声合成」、「音声符号化」、「声質変換」の3つの主要応用分野に依存した検討を並行して行う。 昨今、ネット上から収集されたデータを学習に利用した画像、音声、テキスト等の生成型AIについて、データ提供者の権利の問題として議論されることが多い。本研究では、必要に応じて音声データを収録する際には、これまで通り、本研究の趣旨に合致した内容とすると共に、個人情報の取り扱い、データ提供者の各種権利等について整合性のある形とするよう注意する。
|