研究課題/領域番号 |
17K00234
|
研究種目 |
基盤研究(C)
|
配分区分 | 基金 |
応募区分 | 一般 |
研究分野 |
知覚情報処理
|
研究機関 | 京都産業大学 (2018-2020) 大阪大学 (2017) |
研究代表者 |
川村 新 京都産業大学, 情報理工学部, 教授 (60362646)
|
研究期間 (年度) |
2017-04-01 – 2021-03-31
|
研究課題ステータス |
完了 (2020年度)
|
配分額 *注記 |
3,510千円 (直接経費: 2,700千円、間接経費: 810千円)
2019年度: 1,170千円 (直接経費: 900千円、間接経費: 270千円)
2018年度: 1,170千円 (直接経費: 900千円、間接経費: 270千円)
2017年度: 1,170千円 (直接経費: 900千円、間接経費: 270千円)
|
キーワード | 画像の音変換 / スペクトログラム / 位相スペクトル / 長時間フーリエ変換 / 反復位相復元 / 情報システム / 画像 / 音声等認識 / 情報通信工学 |
研究成果の概要 |
音声をフーリエ変換し,角周波数の振幅スペクトルを輝度として,時間方向に並べた画像をスペクトログラムと呼ぶ.本研究では,一般的な画像を音声のスペクトログラムに埋め込み,音声を合成する方法について検討した.画像をスペクトログラムに埋め込むと,音声の振幅スペクトルが失われる.しかし,音声の長時間位相スペクトルを利用すれば,明瞭度のある音声を合成することができる.そこで提案法では,画像を振幅スペクトル,音声を位相スペクトルに対応させることで,画像から明瞭度のある音声を合成した.提案法では,合成音声から埋め込み画像を復元する際に,一般の情報埋め込み技術とは異なり,振幅スペクトルそのものが画像を表現する.
|
研究成果の学術的意義や社会的意義 |
本研究では,画像を埋め込んだ合成音声をスピーカ等から放射し,受信側で音声から画像を復元する.この技術が完成すれば,音声から得られる言葉の情報とともに,画像情報も同時に伝達できる.また,WiFi環境が整備されていない場所でも受信が可能となり,受信可能範囲も,スピーカの音量調整により制御可能となる.応用例は多岐にわたり,防災用スピーカからの緊急放送に避難経路や災害現場の写真を埋め込む,ラジオの天気予報に天気図を埋め込む,絵本の読み聞かせに該当ページの絵を埋め込む,タイムセール放送に商品や売り場の地図を埋め込む,海外のバスや電車の音声アナウンスに翻訳情報を埋め込む,などが考えられる.
|