2015 Fiscal Year Research-status Report
異種音声単位と複数言語を用いた高分解能音声特徴空間の構築と応用の研究
Project/Area Number |
15K00262
|
Research Institution | National Institute of Advanced Industrial Science and Technology |
Principal Investigator |
李 時旭 国立研究開発法人産業技術総合研究所, 知能システム研究部門, 主任研究員 (50415642)
|
Co-Investigator(Kenkyū-buntansha) |
伊藤 慶明 岩手県立大学, ソフトウェア情報学部, 教授 (90325928)
|
Project Period (FY) |
2015-10-21 – 2018-03-31
|
Keywords | 音声認識 / 異種音声単位 / システム統合 / 多言語処理 / 音声検索語検出 |
Outline of Annual Research Achievements |
本研究では、異種情報を用いて音声特徴空間の分解能を高度化し、特徴空間上の識別能力を高めることにより音声認識技術の性能を高めることを目的として、平成27年度の初年度研究を行った。平成27年10月付きの追加採択から5ヶ月間の短い研究開始時期であるため、計算機資源の導入、データベースの準備、従来手法の確認と提案手法の予備実験などの研究環境整備を中心とした。まず、日本語の音声特徴空間を、従来の正規混合分布を用いる統計的な生成モデルから深層学習による識別モデルへ拡張構築し、予備実験を行った。音声認識技術の応用システムの一つである音声中の検索語検出タスクを対象とする実証実験を通して、深層学習に基づくDNN(Deep Neural Network)モデルの導入による性能向上を確認した。また、本研究の提案である異種情報に基づく複数システムの統合によるさらなる性能向上も得られた。そのシステム統合による性能向上は、従来手法との比較実験から優越な手法であることを確認できた。これまで、多様な抽出からの音声特徴を統合する手法やデータ構成を変えて学習した複数のモデルの結果を統合する手法、文脈依存音素における状態共有の条件を変える手法などが提案されてきたが、いずれも実験的なアプローチであった。それに対して、本研究では、従来の文脈的拡張音声単位と完全に異なる時間的拡張の音声単位である音素片を導入し、異種情報間の異質性を高めることにより音声特徴空間の高分解能性を得ることができた。システム統合においては、統合する個別システムの正確さと多様性が、性能向上を高める必要十分条件であるといえる。この見解を満たすものとして、本研究で提案した異種音声単位による性能向上を、実証実験を通して確認でき、国際会議へその成果を投稿した。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
採択が平成27年度後半の追加採択であり、初年度の研究期間が5ヶ月足らずの短い期間であるにも関わらず、当該研究者らが進めてきた予備調査と所属研究機関の計算機資源や音声データベースの整備により、研究環境を速やかなに整え、さらに予備実験や提案手法の有効性の検証実験の成果を国際会議へ投稿するまで進めることは計画以上の進展であると考えられる。 深層学習による音声特徴空間の構築は、GPGPU(General-purpose computing on graphics processing units)上での実装でも、長時間を要する処理である。一例として、1320次元の音声周波数特徴を利用して、5層の隠れ層をもつDeep Neural Network(DNN)を200時間の日本語音声データを用いて構築するには、6テラ浮動小数点演算回数 (FLOPS) のNVIDIA社のTitan Xでも3日程度の処理時間を要する。当該年度では4つのTitan Xを新たに購入して研究を進めるとともに、研究機関が従来から保有している6つのGPGPUを利用することにより、研究の進捗を早めることができた。特に、日本語と英語の音声において、200時間以上の大規模なデータが当該研究者によりこれまで整備されてきたことが研究初年度の予備実験等の進捗を早期に定着できた理由と考えられる。 日本語音声認識システムの構築において、文脈依存音素(triphone)と音素片の二種類の異種音声単位に基づく正規混合分布(GMM)の生成モデルとDNNの識別モデルを、多様な条件により計40種類を構築した。また、音声検索語検出(STD)タスクを対象に、基本的な音声認識・検索性能を確認する予備実験、システム統合の有効性を確認する実証実験を単一言語の日本語システムで進めてきた。
|
Strategy for Future Research Activity |
本研究課題の二年目である平成28年度では、英語音声認識システムの構築と、日本語と英語の複数言語の統合システムを中心とする研究を進める。特徴空間を高分解能にするためには、音声の汎用的かつ識別的な特徴抽出が必要である。その解決策の一つとして、複数言語による音声特徴空間の構築が考えられる。従来の正規混合分布(GMM)による生成モデルでは、複数言語間の音声単位の定義が困難な問題があり、その構築が実験的な手法に基づくものであった。それに対して、深い神経網回路を用いるDNNでは、その入力に複数言語の特徴を与えることと複数言語の音声単位を出力に定義することで、中間層である隠れ層を重ねて最適化することが音声特徴空間の高分解能化を果たす結果となり、複数言語の情報を効果的に統合することが可能になると考えられる。音声認識技術において、単一言語から生成された音声特徴空間では、異常値の統計モデル化が困難である。その新規な解決策として、ユニバーサルな音声特徴空間を構築することにより、異常値を他言語モデルから定義することも考えられる。今後の研究では、二種類のモデル(GMM、DNN)、二種類の音声単位(triphone、音素片)、二つの言語(日本語、英語)の多様な異種情報を組み合わせるシステムの統合を中心とする研究を計画する。
|
Causes of Carryover |
採択が平成27年度後半の追加採択であるため、研究補助の雇用が困難であった。また、DNN学習用の計算機資源の拡充を優先する必要があった。そのため、初年度予算の180万円から85,155円を残し、次年度で使用する予算額が生じた。しかし、初年度予算の4.73%にあたる少額であるため、研究初年度の予算執行は妥当な範囲であると考えられる。
|
Expenditure Plan for Carryover Budget |
使用計画としては、研究発表の内国旅費として補充することにする。
|