2017 Fiscal Year Research-status Report
全ベイズモデルに基づく音声認識システム学習のデータ無制約化
Project/Area Number |
17K20001
|
Research Institution | Tokyo Institute of Technology |
Principal Investigator |
篠崎 隆宏 東京工業大学, 工学院, 准教授 (80447903)
|
Co-Investigator(Kenkyū-buntansha) |
持橋 大地 統計数理研究所, 数理・推論研究系, 准教授 (80418508)
|
Project Period (FY) |
2017-06-30 – 2019-03-31
|
Keywords | 音声認識 / 半教師あり学習 / 発音辞書 / 強化学習 / ノンパラメトリックベイズ法 |
Outline of Annual Research Achievements |
現在、音声認識システムの認識性能はタスクによっては人と同程度まで向上した。しかし、システムの学習が教師あり学習に著しく依存している問題がある。人手による大量の音声データの書き起こしや発音辞書の整備が必要であり、高い認識性能の実現には大変な開発コストが必要とされている。さらに認識タスクの違いに対して脆弱なため、同じ言語であっても新しいタスクに対しては再度データ収集を行う必要がある。このため、実際に高い認識精度が実現出来ているのは一部の言語の限られたタスクのみである。音声認識を様々なタスクにおいて実用的なものとするためには、認識システムの学習において教師あり学習への依存度を減らし、システムをより自律的なものへとする必要がある。 本研究では、ノンパラメトリックベイズ法と重み付き有限トランスデューサ技術を応用し、対応の無い音素データとテキストデータから、自動的に発音辞書を拡張する手法を提案した。同じ発話に対する音素データとテキストデータの対を必要とせず、別々に収集した音素データとテキストデータを活用できる点が特徴である。これまでに英語および日本語のデータを用いた実験において、実際にそのような学習が可能であることを示した。また、音素データとして、音声認識システムからの認識仮説を用いた場合においても、同様の効果が得られることを確認した。これは、例えばインターネットや書籍からのテキストデータと、それとは独立した自然発話音声から録音した音声データを用いて、自動的に発音辞書を拡張していくことが原理的に可能であることを示すものである。人間が日常生活の中で自然に語彙を拡張していくプロセスと同様の機能であり、音声認識システムの学習の柔軟性を向上させる成果である。またこの他、音声言語情報処理システムとユーザーのインタラクションを通してシステム性能を自動的に改善する仕組みについても研究を行った。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
ノンパラメトリックベイズ法を応用した発音辞書を重み付き有限状態トランスデューサの仕組みを用いてシームレスに言語モデル等と結合し、実験により有効性を示した。また、半自動でシステムを最適化する仕組みや、強化学習についても検討を行った。
|
Strategy for Future Research Activity |
音声認識システムは長らく隠れマルコフモデル(HMM)が中心的な構成要素であったが、ここに来て深層学習の進展によりHMMを用いずに全てを一体のニューラルネットワークで構成するend-to-end型システムが急速に普及しつつある。当研究においても、変分オートエンコーダなどニューラルネットによる生成モデルを応用することで、end-to-end型システムによる音声認識システムの半教師あり学習や教師なし学習、強化学習について研究を進める。
|
Causes of Carryover |
実験で使用するソフトウエアの開発に想定よりも時間を要したこと、研究計画時の想定よりも予算が利用可能となった時期が遅かったことによる。繰り越した予算は、今後大規模な計算を必要とする計算機実験を効率的に進めるためのハードウエアの増強等に使用を予定する。その他、成果発表やデータ整備、クラウド計算リソースの使用料等に予算の支出を行う。
|
Research Products
(15 results)