研究課題
近年、大量のビデオや大量の音声データが蓄積され、その中からユーザが所望する区間を簡便に検索する機能が望まれている。本研究では、ビデオや音声データ中の音声に対して、検索したい単語や句(検索語)を「テキスト」あるいは「音声」で与え、高精度・高速・低資源で検索を実現するシステムを目指すものである。検索語が音声認識システムの辞書に含まれていない「未知語」の場合には検索が困難である。検索語は未知語になることが多く未知語の検索機能は必要不可欠である。本研究では未知語検索の高精度化、高速化、低資源化を目的として、平成27年度は主に、DNN(Deep Neural Network)を本研究テーマのために導入し、新しい検索方式の実現と高精度化についての研究開発を実施した。しかし、DNNを用いると計算時間を要するため、平成28年度は以下の研究開発を実施した、第1段階で従来手法を用いて有力な候補を抽出し、第2段階でその少数の有力候補に対してのみDNNを用いた詳細照合を行う方式を研究開発し、計算時間の削減を実現した。また事前に音節バイグラムで検索する方式を開発し、さらなる高速化・低資源化を実現した。平成28年度から継続して平成29年度は、検索語が音声で与えられ際の高精度、高速、低資源の検索システムの研究開発を推進した。検索語の音声の特徴量系列と音声データの特徴量系列との照合を行う際に、これまでメモリ上には載らない大量のデータ量が必要となり長時間の照合時間を要していたが、ビット列照合/スパースベクトル照合技術を導入し、メモリ上での検索方式を研究開発し検索の高速化を実現した。さらにフレームレベルの事後確率全体を各フレームの1位の確率に置き換えることにより高速かつ低資源で照合を実現する方式を研究開発し、本研究成果については2018年の国際会議INTERSPEECHおよびAPSIPA等で研究発表を行った。
すべて 2018 2017
すべて 雑誌論文 (2件) (うち査読あり 2件、 オープンアクセス 2件) 学会発表 (7件) (うち国際学会 2件)
電子情報通信学会論文
巻: Vol.J100-D, No5 ページ: 595-604
10.14923/transinfj.2016JDP7103
巻: Vol.J100-D,No.8 ページ: 798-807
10.14923/transinfj.2016JDP7122