2019 Fiscal Year Research-status Report

アイヌ語アーカイブを対象としたEnd-to-End音声認識の研究

Research Project

Project/Area Number	18K19814
Research Institution	Kyoto University
Principal Investigator	河原達也京都大学, 情報学研究科, 教授 (00234104)
Co-Investigator(Kenkyū-buntansha)	奥田統己札幌学院大学, 人文学部, 教授 (60224151)
Project Period (FY)	2018-06-29 – 2021-03-31
Keywords	アイヌ語 / 音声認識 / 音声合成 / 消滅危機言語 / End-to-Endモデル
Outline of Annual Research Achievements	我が国を構成する民族の一つであるアイヌは独自の言語を用いて文化を口頭で伝承してきたが、アイヌ語は母語話者の数が減り消滅の危機に瀕している。口頭伝承を録音することでアイヌ文化の保存が図られてきたが、その大部分は書き起こされておらず、十分に活用されていない。本研究では、アイヌ民族博物館と二風谷アイヌ文化博物館から提供されたアイヌ語アーカイブのデータから、民話を対象として音声認識のモデル化と構築を行っている。アイヌ語の専門家である研究分担者と議論しながら、認識の単位や話者のモデル化の検討を進めた。近年研究が進展している深層学習に基づくEnd-to-Endモデルを用いて、音声認識システムを構築した。具体的には、注意機構モデルに Connectionist Temporal Classification（CTC）を組み合わせたものを用いた。音素、音節、ワードピース、単語の各認識単位によって学習したモデルによる認識性能を比較し、単語認識精度と音素認識精度の両方について音節単位が最も高いという知見を得た。話者クローズの場合、各話者について３時間程度の学習データがあれば、単語認識精度で80%以上、音素認識精度で90%以上となることがわかった。話者オープンの場合、話者によって大きく異なるが、単語認識精度は平均的に60%程度（音素認識精度は85%程度）となった。また、日本語コーパスとのマルチリンガル学習の導入も行い、話者オープンの場合に効果を確認した。さらに、比較的データ量の多い２名の話者を対象として、End-to-Endモデルに基づいて音声合成も試みた。話者性を保持しながら、一定の品質の音声を合成することができた。
Current Status of Research Progress	Current Status of Research Progress 1: Research has progressed more than it was originally planned. Reason ２つの博物館から提供頂いたアイヌ語アーカイブの８名の話者を対象として、単語単位認識精度80%（文字単位認識精度90%）の音声認識を実現した。これは期待以上の精度であり、アーカイブの時間情報付与の自動化には十分であると考えられる。これに加えて、音声合成についても大きな可能性を得た。
Strategy for Future Research Activity	音声認識については、さらなる精度向上のための方法を検討する。アーカイブの時間情報付与や書き起こしにおける有用性を検証する。
Causes of Carryover	新型コロナウイルスの感染拡大に伴い、３月に予定していた北海道での研究打合せを延期した。来年度に実施したいと考えている。

Research Products
(4 results)

All 2019

All Presentation (4 results) (of which Int'l Joint Research: 2 results)

[Presentation] 民話を対象としたアイヌ語音声コーパスとend-to-end音声認識2019
- Author(s)
  松浦孝平, 上乃聖, 三村正人, 坂井信輔, 河原達也
- Organizer
  情報処理学会研究報告 SLP-130-16
[Presentation] End-to-endモデルに基づくアイヌ語音声認識におけるクロスリンガル話者拡張敵対学習2019
- Author(s)
  松浦孝平, 上乃聖, 三村正人, 坂井信輔, 河原達也
- Organizer
  日本音響学会研究発表会講演論文集
[Presentation] Multi-lingual transformer training for Khmer automatic speech recognition2019
- Author(s)
  K.Soky, S.Li, T.Kawahara, and S.Seng
- Organizer
  APSIPA ASC
- Int'l Joint Research
[Presentation] Multi-speaker sequence-to-sequence speech synthesis for data augmentation in acoustic-to-word speech recognition2019
- Author(s)
  S.Ueno, M.Mimura, S.Sakai, and T.Kawahara
- Organizer
  IEEE-ICASSP
- Int'l Joint Research

2019 Fiscal Year Research-status Report

アイヌ語アーカイブを対象としたEnd-to-End音声認識の研究

Principal Investigator

河原 達也 京都大学, 情報学研究科, 教授 (00234104)

Current Status of Research Progress

Reason

Research Products

[Presentation] 民話を対象としたアイヌ語音声コーパスとend-to-end音声認識2019

Author(s)

Organizer

[Presentation] End-to-endモデルに基づくアイヌ語音声認識におけるクロスリンガル話者拡張敵対学習2019

Author(s)

Organizer

[Presentation] Multi-lingual transformer training for Khmer automatic speech recognition2019

Author(s)

Organizer

[Presentation] Multi-speaker sequence-to-sequence speech synthesis for data augmentation in acoustic-to-word speech recognition2019

Author(s)

Organizer

河原達也京都大学, 情報学研究科, 教授 (00234104)