研究課題/領域番号 |
21K11957
|
研究種目 |
基盤研究(C)
|
配分区分 | 基金 |
応募区分 | 一般 |
審査区分 |
小区分61010:知覚情報処理関連
|
研究機関 | 電気通信大学 |
研究代表者 |
中鹿 亘 電気通信大学, 大学院情報理工学研究科, 准教授 (90749920)
|
研究分担者 |
矢田部 浩平 東京農工大学, 工学(系)研究科(研究院), 准教授 (20801278)
|
研究期間 (年度) |
2021-04-01 – 2024-03-31
|
研究課題ステータス |
完了 (2023年度)
|
配分額 *注記 |
4,160千円 (直接経費: 3,200千円、間接経費: 960千円)
2023年度: 1,820千円 (直接経費: 1,400千円、間接経費: 420千円)
2022年度: 1,170千円 (直接経費: 900千円、間接経費: 270千円)
2021年度: 1,170千円 (直接経費: 900千円、間接経費: 270千円)
|
キーワード | 音声符号化 / 音声モデリング / 機械学習 / 複素確率分布 / ボルツマンマシン / ガンマ分布 / フォン・ミーゼス分布 / 音源分離 / 音声信号処理 / 確率・統計 / 音声合成 / ニューラルネットワーク |
研究開始時の研究の概要 |
音声は重要なコミュニーケーションツールの一つであり,スマートフォンなど身の回りで様々な音声技術が利用されている。そのバックエンドには機械学習が用いられている。音声の重要な情報としてスペクトルがあり,特に対数振幅スペクトルがよく用いられるが,近年では聴覚上位相の重要性も指摘されている。本研究では,音声に適した新しい機械学習手法として,浅層ニューラルネットである制限ボルツマンマシン(RBM)を用いて対数振幅スペクトルと位相のデータ構造を適切に表現する音声技術を確立する。深層学習とは異なり,RBMはコンパクトで解釈性があり,データの確率分布を陽に仮定できるため,より適切に音声を表現することができる。
|
研究成果の概要 |
音声は重要なコミュニーケーションツールの一つであり,身の回りで様々な音声技術が活用されている。そのバックエンドには,特に近年世界中で注目されていることから深層学習が盲目的に利用されることが多い。深層学習は個々のタスクに対して非常に高い性能を示す反面,パラメータ数が膨大であり計算コストが高いというデメリットがある。計算資源の限られた小型デバイスにはパラメータ数の少ないコンパクトな機械学習モデルの方が望ましい。本研究では,音声データ特有の性質や構造に着目し,データを適切に表現するコンパクトな浅層モデルの方法論と枠組みを新たに提案し,複数の実験によって提案モデルの有効性を検証した。
|
研究成果の学術的意義や社会的意義 |
本研究では,音声のデータ構造に着目し,主に音声複素スペクトルを対数的に表現する複素浅層ニューラルネットを提案した。重要な本研究成果の1つとして,このモデルが,僅か800バイト程度の情報量で,最新の深層学習技術に基づく巨大なニューラルネットワークモデルと同程度の性能を示した,ということが挙げられる。このことから闇雲にパラメータ数を増やしてモデルを巨大化させるのではなく,知恵を絞って適切にデータを表現する方が得策であると言える。またこのようなコンパクトな浅層モデルは,演算による消費電力を抑えることにもなり,省エネで地球環境に配慮したグリーンコンピューティングなアプローチとして貢献することができる。
|