研究課題/領域番号 |
17K00234
|
研究機関 | 大阪大学 |
研究代表者 |
川村 新 大阪大学, 基礎工学研究科, 准教授 (60362646)
|
研究期間 (年度) |
2017-04-01 – 2020-03-31
|
キーワード | 長時間フーリエ変換 / 画像の音変換 / 位相スペクトル |
研究実績の概要 |
本研究の目的は,画像を意味のある音声信号に変換する技術を構築することである.すでに,画像をスペクトログラムとみなして音を生成する技術がある.ただし,得られる音は,人間の音声とはかけ離れている.一方,音声の長時間フーリエ変換(LTFT:Long-Time Fourier Transform)によって得られる「長時間位相スペクトル」を利用すると,振幅スペクトル音声情報を失っても,明瞭度のある音声が復元できることが報告されている.そこで,画像を振幅スペクトル,音声を長時間位相スペクトルに対応させることで,画像から人間の音声を合成する.逆に,音声から元の画像を復元することも可能である.一般の情報埋め込み技術と異なり,本手法では音声の振幅スペクトルそのものが画像を表現することに新規性がある.1年目の目標は,研究の基礎段階として,画像と音声をフーリエ変換で結びつけるための条件を明らかにすることであった.多数のシミュレーション結果から,オーバーラップ加算のない音声FFT分析で得られた位相スペクトルを,画像と結びつけることが,もっとも円滑な合成音声を得るために有効であることがわかった.ただし,音声分析の時間間隔は,1秒程度以上である.また,音と画像(スペクトログラム)の対応についても検討を行い,インパルスが縦線,正弦波が横線を描くことから,任意の描画が可能となる音の条件を明らかにした.今回の成果に関連して,2件の論文(国際誌)を発表した.
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
おおむね設定した課題をクリアできており,当初の予定通り推移している.すでに本課題に関連する2件の論文発表を行っており,さらに今回の最新の成果を国際会議で発表すべく,論文投稿中である.
|
今後の研究の推進方策 |
2年目は,長時間位相スペクトル(LTFT)による音声合成について,振幅スペクトル形状に対する頑健性を,SNR等の客観評価指標と,MOS等の主観指標によって評価する.そして,実用に耐えうるLTFTの条件を導出し,提案法のエンコーダおよびデコーダを実用レベルで再構築する.
|