2012 Fiscal Year Research-status Report
フレキシブルな時間軸による音声再生システムの研究と研究者用音声データベースの作成
Project/Area Number |
23500147
|
Research Institution | The University of Electro-Communications |
Principal Investigator |
高橋 弘太 電気通信大学, 情報理工学(系)研究科, 准教授 (10188005)
|
Keywords | 話速変換 / ユーザモデル / 音声データベース / 話速推定 |
Research Abstract |
平成23年度から開始した本研究の目的は,平成22年度までの3年間にわたって科研費の助成を受けて行った「フレキシブルな時間軸による再生機」の研究を進め,それを実用となるレベルで実装することであり,同時に,フレキシブルな時間軸による再生機の研究の中の要素技術である話速推定の技術や,話速変換のための信号処理技術を体系的に研究するための音声データベースの構築を,本研究の中で行うことである.そして,構築した音声データベースをWebページを用いて公開し,広く全国の研究者の研究に役立ててもらい,話速推定や話速が人間に及ぼす影響などの研究が,本研究テーマの担当研究者だけでなく,より多くの研究者によって研究されることを促進し,この分野を,音声信号処理の研究の中の一分野として確立することである. 本年度は,「フレキシブルな時間軸による再生機」の研究においては,前年度より構築しているVertex-6を用いたFPGA基板に,インターフェース用の液晶とタッチパネルを実装し,再生機のユーザが操作できるシステムの試作を行った.また,FPGAへの実装に際し,マイクロプロセッサを内包させることの有効性についても検証した. また.本年度は,音声データベース構築の新たな録音については,研究代表者の研究室の建物および近接する建物に耐震補強の工事がはいり,騒音が激しかったため行うことができなかったが,データの整理とWebページをより見やすくすることに力を注いだ.現在,約2000のファイルを公開しており,話速を厳密に管理して,複数の話者が,多彩な文章を読み上げるという形式のこれだけ大規模な音声データベースは国内外ともに例がなく,すでに,この分野の研究をすすめる研究者の役にたてるものが出来上がりつつあると考えている.
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
「フレキシブルな時間軸による再生機」の研究においては,予定どおりFPGAによるシステムを構築し,それを本年度さらに拡張できたこと,それを用いて再生実験を行うことができたこと,などから,概ね順調に進行していると言える.マイクロプロセッサを内包させた実装については,期待していた演算速度は得られなかったが,これによって,マイクロプロセッサを使わずに.できるだけ論理設計によって実装しなければならないという指針が得られたという意味で,必要な知見が得られたものと考えている. また,「話速バリエーション型音声データベース」の構築に関しては,研究代表者の研究室の建物および近接する建物に耐震補強の工事がはいり,騒音が激しかったため行うことができなかったという問題はあったが,それを利用した研究という意味で存在価値をアピールできたものと考えている.すなわち,作るだけでなく,その有効性につて実証することも本研究のテーマのひとつとしてとらえ,本年度は,その面で進展させたものと考えている. また,フレキシブルな時間軸による再生の理論面において,再生ピッチを故意に変化させる新しいアルゴリズムを提案し,有効性を示せたという意味で,当初予定していなかった研究の進展もあった. これらの視点をあわせて,全体として,おおむね順調に進展していると評価している.
|
Strategy for Future Research Activity |
順調であるので,当初の計画どおり研究をすすめることを考えている.すなわち,「フレキシブルな時間軸による再生機」の実装の研究と,話速バリエーション型音声データベース」の研究を車輪の両輪ととらえて,話速推定,話速変換,聞き取りやすい音声とはなにか,といったサブ研究テーマにとりくみつつ,最終的な先端的再生機について具体化していくことを考えている.本年度,芽が出かけたといえるピッチを可変にする方法についても,さらに深めて研究することを計画している. FPGAによるシステムは,何が困難であるかはっきりしてきたので,研究成果を上げることができる方向での実装に絞って研究を進めたい. 本研究テーマの主な成果物である「話速バリエーション型音声データベース」については,本テーマの研究を終了した後も,多くの研究者に利用してもらえるものとしたいので,多くの研究者が便利に使えるように,その内容を精査し,ラベルなどメタ情報も一部のデータには付け加えるなどしていきたい.
|
Expenditure Plans for the Next FY Research Funding |
該当なし
|
Research Products
(5 results)