Project/Area Number |
21K11957
|
Research Category |
Grant-in-Aid for Scientific Research (C)
|
Allocation Type | Multi-year Fund |
Section | 一般 |
Review Section |
Basic Section 61010:Perceptual information processing-related
|
Research Institution | The University of Electro-Communications |
Principal Investigator |
Nakashika Toru 電気通信大学, 大学院情報理工学研究科, 准教授 (90749920)
|
Co-Investigator(Kenkyū-buntansha) |
矢田部 浩平 東京農工大学, 工学(系)研究科(研究院), 准教授 (20801278)
|
Project Period (FY) |
2021-04-01 – 2024-03-31
|
Project Status |
Completed (Fiscal Year 2023)
|
Budget Amount *help |
¥4,160,000 (Direct Cost: ¥3,200,000、Indirect Cost: ¥960,000)
Fiscal Year 2023: ¥1,820,000 (Direct Cost: ¥1,400,000、Indirect Cost: ¥420,000)
Fiscal Year 2022: ¥1,170,000 (Direct Cost: ¥900,000、Indirect Cost: ¥270,000)
Fiscal Year 2021: ¥1,170,000 (Direct Cost: ¥900,000、Indirect Cost: ¥270,000)
|
Keywords | 音声符号化 / 音声モデリング / 機械学習 / 複素確率分布 / ボルツマンマシン / ガンマ分布 / フォン・ミーゼス分布 / 音源分離 / 音声信号処理 / 確率・統計 / 音声合成 / ニューラルネットワーク |
Outline of Research at the Start |
音声は重要なコミュニーケーションツールの一つであり,スマートフォンなど身の回りで様々な音声技術が利用されている。そのバックエンドには機械学習が用いられている。音声の重要な情報としてスペクトルがあり,特に対数振幅スペクトルがよく用いられるが,近年では聴覚上位相の重要性も指摘されている。本研究では,音声に適した新しい機械学習手法として,浅層ニューラルネットである制限ボルツマンマシン(RBM)を用いて対数振幅スペクトルと位相のデータ構造を適切に表現する音声技術を確立する。深層学習とは異なり,RBMはコンパクトで解釈性があり,データの確率分布を陽に仮定できるため,より適切に音声を表現することができる。
|
Outline of Final Research Achievements |
Speech is one of the most important communication tools, and various speech technologies are used around us. Especially in recent years, deep learning is often used blindly as its backend because it has been attracting worldwide attention. While deep learning shows very high performance for each task, it has the disadvantage of having a huge number of parameters and high computational cost. Compact machine learning models with a fewer number of parameters are preferable for small devices with limited computational resources. In this study, we proposed a new methodology and framework for a compact shallow-layer model that appropriately represents data, focusing on the specific properties and structures of speech data, and verified the effectiveness of the proposed model through multiple experiments.
|
Academic Significance and Societal Importance of the Research Achievements |
本研究では,音声のデータ構造に着目し,主に音声複素スペクトルを対数的に表現する複素浅層ニューラルネットを提案した。重要な本研究成果の1つとして,このモデルが,僅か800バイト程度の情報量で,最新の深層学習技術に基づく巨大なニューラルネットワークモデルと同程度の性能を示した,ということが挙げられる。このことから闇雲にパラメータ数を増やしてモデルを巨大化させるのではなく,知恵を絞って適切にデータを表現する方が得策であると言える。またこのようなコンパクトな浅層モデルは,演算による消費電力を抑えることにもなり,省エネで地球環境に配慮したグリーンコンピューティングなアプローチとして貢献することができる。
|