研究課題/領域番号 |
17K20001
|
研究機関 | 東京工業大学 |
研究代表者 |
篠崎 隆宏 東京工業大学, 工学院, 准教授 (80447903)
|
研究分担者 |
持橋 大地 統計数理研究所, 数理・推論研究系, 准教授 (80418508)
|
研究期間 (年度) |
2017-06-30 – 2020-03-31
|
キーワード | 音声認識 / 半教師あり学習 / 強化学習 / 教師なし学習 |
研究実績の概要 |
音声認識を様々なタスクにおいて実用的なものとするためには、認識システムの学習において教師あり学習への依存度を減らし、システムをより自律的なものへとする必要がある。本研究では、ノンパラメトリックベイズ法と重み付き有限トランスデューサ技術を応用し、対応の無い音素データとテキストデータから、自動的に発音辞書を拡張する手法を提案した。また、書き起こしテキストを用いずにEncoder-Decoder型の音声認識システム全体を方策関数として、認識結果のスカラー評価値をもとにシステムを強化学習する方法について検討および実験を進めた。これは、クラウド上に構築された音声認識サーバーが多数のユーザーに認識サービスを提供する際に、ユーザーからのわずかなフィードバックを大量に集めることで、書き起こしを用いることなくシステム性能を向上させる応用を想定したものである。学習と共に期待報酬が増加することは理論的には保障されているものの、実際に有限のリソースのもとに学習を進めることは容易ではない。例えば、教師あり学習を行うシステムにおいて一般的なアテンション機構の利用は、学習の初期において強化学習を困難にすることが判明した。これは、アライメントの学習がうまくいかないためである。そこで、従来のアテンション機構を代替するものとしてスポーク状の構造を提案し、有効性を示した。人間にとって視覚と聴覚はそれぞれが重要であることに加えて、それらの相関の利用は学習を行う上で役立っていると考えられる。ビデオカメラに代表されるように画像と音声を同時に収録することは一般的に行われており、人手によるラベルを用いない学習において音声と画像の相関を有効利用できれば有用であると考えられる。このような目的の元、音声を手掛かりに画像中の音源を教師なしで特定する手法を提案し、有効性を示した。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
3: やや遅れている
理由
深層学習の進展に伴い、長らく標準的であった音声認識システムの構成方法に代わり、システム全体をニューラルネットで構成する方法がその柔軟性から急速に普及し始めている。現在は、音声認識分野において歴史的に大きな技術の転換点にある。このため本研究においても研究方法について見直しを行ったことや、新たに構築したニューラルネットを用いた認識システムについて構成の最適化に時間を費やしたため、当初の想定よりもやや進捗に遅れが出た。
|
今後の研究の推進方策 |
音声認識システムは長らく隠れマルコフモデル(HMM)が中心的な構成要素であったが、ここに来て深層学習の進展によりHMMを用いずに全てを一体のニューラルネットワークで構成するend-to-end型システムが急速に普及しつつある。当研究においても、変分オートエンコーダなどニューラルネットによる生成モデルを応用することで、end-to-end型システムによる音声認識システムの半教師あり学習や教師なし学習、強化学習について研究を進める。
|
次年度使用額が生じた理由 |
音声認識システムをニューラルネットのみを用いて構成するアプローチのためのベースラインの構成や、新たな学習アルゴリズムの挙動について不明な点の調査を行うのに時間を要したことなどによる。これに伴い、一部大規模な計算を伴う実験の実施や研究発表の分の予算に次年度使用が生じた。繰り越した予算は、計算機実験を行うための計算機使用料や研究成果の発表などに用いる予定である。
|