2019 年度実施状況報告書

アイヌ語アーカイブを対象としたEnd-to-End音声認識の研究

研究課題

研究課題/領域番号	18K19814
研究機関	京都大学
研究代表者	河原達也京都大学, 情報学研究科, 教授 (00234104)
研究分担者	奥田統己札幌学院大学, 人文学部, 教授 (60224151)
研究期間 (年度)	2018-06-29 – 2021-03-31
キーワード	アイヌ語 / 音声認識 / 音声合成 / 消滅危機言語 / End-to-Endモデル
研究実績の概要	我が国を構成する民族の一つであるアイヌは独自の言語を用いて文化を口頭で伝承してきたが、アイヌ語は母語話者の数が減り消滅の危機に瀕している。口頭伝承を録音することでアイヌ文化の保存が図られてきたが、その大部分は書き起こされておらず、十分に活用されていない。本研究では、アイヌ民族博物館と二風谷アイヌ文化博物館から提供されたアイヌ語アーカイブのデータから、民話を対象として音声認識のモデル化と構築を行っている。アイヌ語の専門家である研究分担者と議論しながら、認識の単位や話者のモデル化の検討を進めた。近年研究が進展している深層学習に基づくEnd-to-Endモデルを用いて、音声認識システムを構築した。具体的には、注意機構モデルに Connectionist Temporal Classification（CTC）を組み合わせたものを用いた。音素、音節、ワードピース、単語の各認識単位によって学習したモデルによる認識性能を比較し、単語認識精度と音素認識精度の両方について音節単位が最も高いという知見を得た。話者クローズの場合、各話者について３時間程度の学習データがあれば、単語認識精度で80%以上、音素認識精度で90%以上となることがわかった。話者オープンの場合、話者によって大きく異なるが、単語認識精度は平均的に60%程度（音素認識精度は85%程度）となった。また、日本語コーパスとのマルチリンガル学習の導入も行い、話者オープンの場合に効果を確認した。さらに、比較的データ量の多い２名の話者を対象として、End-to-Endモデルに基づいて音声合成も試みた。話者性を保持しながら、一定の品質の音声を合成することができた。
現在までの達成度 (区分)	現在までの達成度 (区分) 1: 当初の計画以上に進展している理由２つの博物館から提供頂いたアイヌ語アーカイブの８名の話者を対象として、単語単位認識精度80%（文字単位認識精度90%）の音声認識を実現した。これは期待以上の精度であり、アーカイブの時間情報付与の自動化には十分であると考えられる。これに加えて、音声合成についても大きな可能性を得た。
今後の研究の推進方策	音声認識については、さらなる精度向上のための方法を検討する。アーカイブの時間情報付与や書き起こしにおける有用性を検証する。
次年度使用額が生じた理由	新型コロナウイルスの感染拡大に伴い、３月に予定していた北海道での研究打合せを延期した。来年度に実施したいと考えている。

研究成果

(4件)

すべて 2019

すべて学会発表 (4件) (うち国際学会 2件)

[学会発表] 民話を対象としたアイヌ語音声コーパスとend-to-end音声認識2019
- 著者名/発表者名
  松浦孝平, 上乃聖, 三村正人, 坂井信輔, 河原達也
- 学会等名
  情報処理学会研究報告 SLP-130-16
[学会発表] End-to-endモデルに基づくアイヌ語音声認識におけるクロスリンガル話者拡張敵対学習2019
- 著者名/発表者名
  松浦孝平, 上乃聖, 三村正人, 坂井信輔, 河原達也
- 学会等名
  日本音響学会研究発表会講演論文集
[学会発表] Multi-lingual transformer training for Khmer automatic speech recognition2019
- 著者名/発表者名
  K.Soky, S.Li, T.Kawahara, and S.Seng
- 学会等名
  APSIPA ASC
- 国際学会
[学会発表] Multi-speaker sequence-to-sequence speech synthesis for data augmentation in acoustic-to-word speech recognition2019
- 著者名/発表者名
  S.Ueno, M.Mimura, S.Sakai, and T.Kawahara
- 学会等名
  IEEE-ICASSP
- 国際学会

2019 年度 実施状況報告書

アイヌ語アーカイブを対象としたEnd-to-End音声認識の研究

研究代表者

河原 達也 京都大学, 情報学研究科, 教授 (00234104)

現在までの達成度 (区分)

理由

研究成果

[学会発表] 民話を対象としたアイヌ語音声コーパスとend-to-end音声認識2019

著者名/発表者名

学会等名

[学会発表] End-to-endモデルに基づくアイヌ語音声認識におけるクロスリンガル話者拡張敵対学習2019

著者名/発表者名

学会等名

[学会発表] Multi-lingual transformer training for Khmer automatic speech recognition2019

著者名/発表者名

学会等名

[学会発表] Multi-speaker sequence-to-sequence speech synthesis for data augmentation in acoustic-to-word speech recognition2019

著者名/発表者名

学会等名

2019 年度実施状況報告書

河原達也京都大学, 情報学研究科, 教授 (00234104)