2023 年度研究成果報告書

音声スペクトルを対数的に表現する浅層ニューラルネットに関する研究

研究課題

PDF

研究課題/領域番号	21K11957
研究種目	基盤研究(C)
配分区分	基金
応募区分	一般
審査区分	小区分61010:知覚情報処理関連
研究機関	電気通信大学
研究代表者	中鹿亘電気通信大学, 大学院情報理工学研究科, 准教授 (90749920)
研究分担者	矢田部浩平東京農工大学, 工学(系)研究科(研究院), 准教授 (20801278)
研究期間 (年度)	2021-04-01 – 2024-03-31
キーワード	音声符号化 / 音声モデリング / 機械学習 / 複素確率分布 / ボルツマンマシン / ガンマ分布 / フォン・ミーゼス分布 / 音源分離
研究成果の概要	音声は重要なコミュニーケーションツールの一つであり，身の回りで様々な音声技術が活用されている。そのバックエンドには，特に近年世界中で注目されていることから深層学習が盲目的に利用されることが多い。深層学習は個々のタスクに対して非常に高い性能を示す反面，パラメータ数が膨大であり計算コストが高いというデメリットがある。計算資源の限られた小型デバイスにはパラメータ数の少ないコンパクトな機械学習モデルの方が望ましい。本研究では，音声データ特有の性質や構造に着目し，データを適切に表現するコンパクトな浅層モデルの方法論と枠組みを新たに提案し，複数の実験によって提案モデルの有効性を検証した。
自由記述の分野	音声処理
研究成果の学術的意義や社会的意義	本研究では，音声のデータ構造に着目し，主に音声複素スペクトルを対数的に表現する複素浅層ニューラルネットを提案した。重要な本研究成果の1つとして，このモデルが，僅か800バイト程度の情報量で，最新の深層学習技術に基づく巨大なニューラルネットワークモデルと同程度の性能を示した，ということが挙げられる。このことから闇雲にパラメータ数を増やしてモデルを巨大化させるのではなく，知恵を絞って適切にデータを表現する方が得策であると言える。またこのようなコンパクトな浅層モデルは，演算による消費電力を抑えることにもなり，省エネで地球環境に配慮したグリーンコンピューティングなアプローチとして貢献することができる。