2017 年度実施状況報告書

音声の長時間位相スペクトルを利用した画像の音変換に関する研究

研究課題

研究課題/領域番号	17K00234
研究機関	大阪大学
研究代表者	川村新大阪大学, 基礎工学研究科, 准教授 (60362646)
研究期間 (年度)	2017-04-01 – 2020-03-31
キーワード	長時間フーリエ変換 / 画像の音変換 / 位相スペクトル
研究実績の概要	本研究の目的は，画像を意味のある音声信号に変換する技術を構築することである．すでに，画像をスペクトログラムとみなして音を生成する技術がある．ただし，得られる音は，人間の音声とはかけ離れている．一方，音声の長時間フーリエ変換（LTFT：Long-Time Fourier Transform）によって得られる「長時間位相スペクトル」を利用すると，振幅スペクトル音声情報を失っても，明瞭度のある音声が復元できることが報告されている．そこで，画像を振幅スペクトル，音声を長時間位相スペクトルに対応させることで，画像から人間の音声を合成する．逆に，音声から元の画像を復元することも可能である．一般の情報埋め込み技術と異なり，本手法では音声の振幅スペクトルそのものが画像を表現することに新規性がある．1年目の目標は，研究の基礎段階として，画像と音声をフーリエ変換で結びつけるための条件を明らかにすることであった．多数のシミュレーション結果から，オーバーラップ加算のない音声FFT分析で得られた位相スペクトルを，画像と結びつけることが，もっとも円滑な合成音声を得るために有効であることがわかった．ただし，音声分析の時間間隔は，1秒程度以上である．また，音と画像（スペクトログラム）の対応についても検討を行い，インパルスが縦線，正弦波が横線を描くことから，任意の描画が可能となる音の条件を明らかにした．今回の成果に関連して，2件の論文（国際誌）を発表した．
現在までの達成度 (区分)	現在までの達成度 (区分) 2: おおむね順調に進展している理由おおむね設定した課題をクリアできており，当初の予定通り推移している．すでに本課題に関連する2件の論文発表を行っており，さらに今回の最新の成果を国際会議で発表すべく，論文投稿中である．
今後の研究の推進方策	2年目は，長時間位相スペクトル（LTFT）による音声合成について，振幅スペクトル形状に対する頑健性を，SNR等の客観評価指標と，MOS等の主観指標によって評価する．そして，実用に耐えうるLTFTの条件を導出し，提案法のエンコーダおよびデコーダを実用レベルで再構築する．

研究成果
(2件)

すべて雑誌論文 (2件) (うち国際共著 2件、査読あり 2件)

[雑誌論文] On Sound Signal Processing in Image to Sound Mapping Technique2017
- 著者名/発表者名
  Arata Kawamura
- 雑誌名
  
  Elsevier Applied Acoustics
  
  巻: 117 ページ: 1-11
- 査読あり / 国際共著
[雑誌論文] An efficient image to sound mapping method using speech spectral phase and multi-column image2017
- 著者名/発表者名
  Arata Kawamura, Hiro Igarashi, and Youji Iiguni
- 雑誌名
  
  IEICE Trans. Fundamentals
  
  巻: E100-A ページ: 893-895
- 査読あり / 国際共著