2016 Fiscal Year Research-status Report
DNNを用いた音声による音声の検索の高精度・高速・低資源システムの実現
Project/Area Number |
15K00241
|
Research Institution | Iwate Prefectural University |
Principal Investigator |
伊藤 慶明 岩手県立大学, ソフトウェア情報学部, 教授 (90325928)
|
Co-Investigator(Kenkyū-buntansha) |
李 時旭 国立研究開発法人産業技術総合研究所, その他部局等, 研究員 (50415642)
|
Project Period (FY) |
2015-04-01 – 2018-03-31
|
Keywords | 音声中の検索語検出 / 深層学習 / Deep Neural Network / スパースベクトル |
Outline of Annual Research Achievements |
近年、大量のビデオや大量の音声データの簡便な検索機能が望まれている。本研究では、ビデオや音声データ中の音声を「テキスト」あるいは「音声」検索する機能を、高精度・高速・低資源で実現するシステムを目指すものである。 検索したい単語や句(検索語)が音声認識システムの辞書に含まれていない「未知語」の場合には検索が困難である。検索語は未知語になることが多く未知語の検索機能は必要不可欠である。本研究では未知語検索の高精度化、高速化、低資源化を目的として、平成27年度は以下の主にDNN(Deep Neural Network)を用いた検索方式の実現と高精度化についての研究開発を実施した。平成28年度は以下の研究開発を実施した。 (1)未知語クエリの高精度音声検索方式の研究開発:DNNを用いると計算時間を要するため、第1段階で従来手法を用いて有力な候補を抽出し、第2段階でその少数の有力候補に対してのみDNNを用いた詳細照合を行うことで大幅な精度改善を実現した。本研究成果については、電子情報通信学会の研究発表会および日本音響学会の研究発表会で報告し、電子情報通信学会の論文誌論文に2017年5月に掲載された。 (2)音声検索の高速化方式の研究開発:検索語が音声で与えられた時、検索語の音声の特徴量系列と音声データの特徴量系列との照合を行う際に、これまでメモリ上には載らない大量のデータ量が必要となり長時間の照合時間を要していた。ここにビット列照合/スパースベクトル照合技術を導入し、メモリ上での検索方式を新たに研究開発し検索の高速化を実現した。本研究成果については、2017年のINTERSPEECHに投稿を行った。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
以下の4つのサブテーマのうち主に(1)と(2)について研究開発を実施する予定であったが、それぞれのテーマについて確実な進展があった。 (1)未知語クエリの高精度音声検索方式の研究開発 (2)音声検索の高速化方式の研究開発 (3)音声検索の低資源のインデックス化方式の研究開発 (4)音声で入力したクエリでの音声検索方式の研究開発
|
Strategy for Future Research Activity |
平成28年度では、これまで用いていた音素等のモデル単位での照合と比べ、より詳細な照合を行う①DNNを用いたフレーム単位での照合、②HMMにおける状態単位での照合,③HMM-DNNにおける①と②を併用する照合方式について優位な方式を見極めた。また、H27年度に評価した音節バイグラムと音素4-gramでの事前検索方式の有効性が検証し、音節n-gram,音素n-gramで評価を進め,最適なn-gram事前検索方式を研究開発した。平成28年度は前述の通り、音声で検索語が与えられた際、音声検索語と音声データを高速に検索する手法の研究開発を行った。 本テーマは、(1)未知語クエリの高精度音声検索方式の研究開発、(2)音声検索の高速化方式の研究開発、(3)音声検索の低資源のインデックス化方式の研究開発、(4)音声で入力したクエリでの音声検索方式の研究開発、の4つのサブテーマから構成され、上述の通り各々のテーマに対して確実な進展を果たしてきた。平成29年度は4つのサブテーマについて、さらなる高度化を図るととともに、実際に稼働する高精度・高速・低資源の音声中の検索語検出システムの研究開発を推進する。50時間以上の検索対象に対して検索精度9割、検索時間1秒以内、必要資源500MB以下のプロトタイプシステムを目標として研究開発を推進する。
|