本研究では,我が国における消滅危機言語であるアイヌ語の民話(ウウェペケレ)を対象として音声認識に取り組んできた.これまでに,2つの博物館から提供されたアイヌ語アーカイブのデータを元に構築した沙流方言を対象としたアイヌ語音声コーパスを用いて,音声認識システムを構成した. 音声認識性能が未知の話者について大幅に低下するという問題に対して,CycleGANを用いた教師無し話者適用を提案した.本手法ではまず,CycleGANに学習データ内の話者の音声から認識対象話者の音声への写像を学習する.次に,このCycleGANの生成器を使用して,学習データ内の音声を全て認識対象話者風の音声に変換する.最後に,元の音声と変換された音声の両方を使用して音声認識モデルを学習する.本手法によって最大で相対60.6%の音素誤り率における改善を得た.これは従来手法であるマルチリンガル学習や自己学習教師無し話者適応による改善幅を大きく上回るものである. 録音資料はもともと日本語とアイヌ語の発話が混合したものであり,そのままでは上記の音声認識技術を適用することができない.そこで,日本語アイヌ語混合音声における言語識別を検討した.具体的には,音素列と単語列を介して言語識別を行う手法を提案し,音響特徴量から直接言語識別を行う従来手法と比較した.混合音声を学習時に使用しないという条件において,従来手法は有意な言語識別が不可能であったが,提案手法は一定の識別性能を実現した.
|