2015 Fiscal Year Research-status Report
DNNを用いた音声による音声の検索の高精度・高速・低資源システムの実現
Project/Area Number |
15K00241
|
Research Institution | Iwate Prefectural University |
Principal Investigator |
伊藤 慶明 岩手県立大学, ソフトウェア情報学部, 教授 (90325928)
|
Co-Investigator(Kenkyū-buntansha) |
李 時旭 国立研究開発法人産業技術総合研究所, その他部局等, 研究員 (50415642)
|
Project Period (FY) |
2015-04-01 – 2018-03-31
|
Keywords | Deep Neural Net / 音声中の検索語検出 / 未知語 |
Outline of Annual Research Achievements |
ビデオ機器の大容量化に伴い、大量のビデオの音声を簡便に検索できる機能が望まれる。本研究では、ビデオ中の音声を「音声で」検索する機能を、高精度・高速・低資源で実現するシステムの開発を目指すものである。 検索したい単語や句(クエリ)が音声認識システムの辞書に含まれていない「未知語」の場合には検索が困難である。クエリは未知語になることが多く未知語の検索機能は必要不可欠である。本研究では未知語検索の高精度化の実現とともに、高速性、低資源性にも留意して、平成27年度は以下の研究開発を実施した。 (1)未知語クエリの高精度音声検索方式の研究開発:音声認識において実績を上げているDNN(Deep Neural Network)を導入した。本テーマでは,少数の有力候補に対してのみへの詳細照合方式とDNNでのリランキング方式を新たに研究開発し大幅な精度改善を実現した。(2)音声検索の高速化方式の研究開発:(1)の「少数の有力候補」の抽出により高速化を実現した。これまでに2つのひらがなの対(音節バイグラム)のインデックスを作成しておき,クエリ中の音節バイグラムと一致する区間を少数有力候補とする方式を開発し、高精度な少数有力候補抽出手法を開発した。(3)音声検索の低資源のインデックス化方式の研究開発:(2)の事前検索方式では大きなインデックスサイズが必要になる。そこで類似する音声/音素n-gramを事前に求めておくことでコンパクトなインデックスの構築方式を新たに研究開発した。(4)音声で入力したクエリでの音声検索方式の研究開発:音声クエリは辞書中の単語か未知語か分からないため,未知語として処理せざるを得ず、音声クエリを認識しても正確な音素列が得られるとは限らない。そこでDNNによる音素列の抽出方式と,様々な認識器の認識結果を統合する方式等を研究開発し,実証実験の結果、高い検索精度が得られた。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
平成27年度は以下の4つのテーマについて研究開発を実施する予定であったが、それぞれのてーまについて確実な進展があった。 (1)未知語クエリの高精度音声検索方式の研究開発 (2)音声検索の高速化方式の研究開発 (3)音声検索の低資源のインデックス化方式の研究開発 (4)音声で入力したクエリでの音声検索方式の研究開発
|
Strategy for Future Research Activity |
平成28年度の研究計画 平成28年度は4つのサブテーマについて主に(1)と(2)について下記のように研究開発を実施する。 (1)平成28年度からは、これまで用いていた音素等のモデル単位での照合と比べ、より詳細な照合を行う①DNNを用いたフレーム単位での照合、②HMMにおける状態単位での照合,③HMM-DNNにおける①と②を併用する照合方式 について優位な方式を見極めるとともに,有効なリランキング方式およびその適用順の研究開発を進め,検索精度をさらに10ポイント向上させる。 (2)平成28年度からは、H27年度に評価した音節バイグラムと音素4-gramで有効性が検証できればそれらのn-gram以外の音節n-gram,音素n-gramで評価を進め,最適なn-gram事前検索方式を追求する。事前検索方式以外の高速化手法についても並行して検討を進める。本テーマを実際のシステムとして実現するため、平成28年度からプロトタイプシステムを開発し年度末には検索精度の5ポイント向上の実現を目指す。平成28年度には50時間以上の検索対象に対して検索精度9割、検索時間1秒以内、必要資源500MB以下のシステムを完成させる。
|