2017 Fiscal Year Annual Research Report
Self-Organized Learning of Speech Recognition and Synthesis Systems
Project/Area Number |
26280055
|
Research Institution | Tokyo Institute of Technology |
Principal Investigator |
篠崎 隆宏 東京工業大学, 工学院, 准教授 (80447903)
|
Co-Investigator(Kenkyū-buntansha) |
能勢 隆 東北大学, 工学研究科, 准教授 (90550591)
|
Project Period (FY) |
2014-04-01 – 2018-03-31
|
Keywords | 音声言語情報処理 / ブラックボックス最適化 / 教師なし学習 / 教師なし適応 / 強化学習 |
Outline of Annual Research Achievements |
現在音声認識や音声合成などにおいて高い性能を得るためには、多大な手間と費用が必要となる教師あり学習やシステムチューニングが必要とされている。本研究ではこれらのシステム開発における自動化を目的に、人手の介入の必要度を下げるための取り組みを行った。 ニューラルネットワークにおいてニューロンの結合重みはバックプロパゲーションにより推定されるが、学習時にはそれ以外にネットワークの構造や各種学習条件を最適化する必要がある。本研究では進化戦略やベイズ法などのブラックボックス最適化手法を応用し、並列計算を行うことで、大規模な音声認識システムや翻訳システムのチューニングの自動最適化に有効であることを示した。またそれにより構築した音声認識システムをもとに、言語によらず音声識別性能の高い音声特徴量の作成手法を提案し、有効性を示した。これは低リソース言語における教師なし学習において有用となるものである。音声合成においては、一般に人が聞いて自然な音声が合成されるように目的関数を設計するのが難しい問題がある。その解決法として、目的関数自身をシステムに学習させる敵対的学習を利用した任意話者声質変換システムの改良を検討した。 音声認識システム等においては、特定のタスクに対して一度高精度なシステムを構築したとしても、同じ言語の異なるタスクに用いようとすると認識性能が大きく劣化してしまう問題がある。この問題に対応するため、認識対象タスクの書き起こしラベルの無い音声データを用いた教師なし適応手法や、クラウド環境における多数のユーザーからの僅かなフィードバックをもとにシステム性能を向上させる手法を提案し、有効性を示した。
|
Research Progress Status |
29年度が最終年度であるため、記入しない。
|
Strategy for Future Research Activity |
29年度が最終年度であるため、記入しない。
|
Causes of Carryover |
29年度が最終年度であるため、記入しない。
|
Expenditure Plan for Carryover Budget |
29年度が最終年度であるため、記入しない。
|
Research Products
(31 results)