2013 Fiscal Year Annual Research Report
フレキシブルな時間軸による音声再生システムの研究と研究者用音声データベースの作成
Project/Area Number |
23500147
|
Research Institution | The University of Electro-Communications |
Principal Investigator |
高橋 弘太 電気通信大学, 情報理工学(系)研究科, 准教授 (10188005)
|
Keywords | 話速変換 / 音声データベース / 話速推定 |
Research Abstract |
本研究課題は,その前の研究課題として科研費の助成を受けて行った「フレキシブルな時間軸による再生機」の研究をさらに押し進め,フレキシブルな時間軸による再生機の研究の中の要素技術である話速推定の技術や,話速変換のための信号処理技術を体系的に研究するものである.また,本研究課題では,その研究に用いる必要性のためだけでなく,全国の研究者が無償で利用できるように,音声データベースの構築も行っている. 本年度は,「フレキシブルな時間軸による再生機」の研究においては,C言語による開発環境をさらに拡充した.具体的には,信号処理を処理要素ごとに分解して記述し,その要素を連結することで処理が行えるようにした.また,全体の構造を図的に表示するツールも独自に開発した.FPGAによるシステムについては,インタラクティブな操作ができるような独自のハードウエアも開発した. また,「音声データベースの構築」に関しては,2種類の音源を新たに採取し,編集し公開を行った.今回採取した第一のデータセットは,一文字違いで文意が異なる文章の読み上げである.これは聞き間違えの定量評価に利用することができる.第二のデータセットは,カーナビのガイド音声を模擬した原稿の読み上げである.こちらは,実社会における応用を念頭に置いて製作した.距離や方向の表現を複数種類作り,それらの組み合わせを原稿として製作してこれを読み上げてもらった後に切り分けて編集することで,様々な組み合わせのガイド音声が成績できるようになっている.この2つのデータセットは,話速を変えてアナウンサーに読み上げてもらい,SN比の良好な音声データベースとして作成することができた.また,時間をかけてリップノイズも取り除いてあり,利用価値が高い高品質なものとなったと考えている.今後は,これらの成果を踏まえ研究をさらに層の厚いものにして,実用化に近づけていきたい.
|
Research Products
(5 results)