2018 年度実施状況報告書

アイヌ語アーカイブを対象としたEnd-to-End音声認識の研究

研究課題

研究課題/領域番号	18K19814
研究機関	京都大学
研究代表者	河原達也京都大学, 情報学研究科, 教授 (00234104)
研究分担者	奥田統己札幌学院大学, 人文学部, 教授 (60224151)
研究期間 (年度)	2018-06-29 – 2020-03-31
キーワード	アイヌ語 / 音声認識 / 消滅危機言語 / End-to-Endモデル
研究実績の概要	我が国における代表的な消滅危機言語であるアイヌ語を対象として、音声認識の研究を行った。アイヌ語アーカイブを構築している博物館から音声データの提供を受けて、発話の区分化と音素及び単語の系列との対応付け（アノテーション）を行った。アイヌ語の専門家である研究分担者と議論しながら、認識の単位を設計した。近年研究が進展している深層学習に基づくEnd-to-Endモデルに基づいて認識システムを構築した。これは、単語辞書や複雑な認識プログラムを必要とせず、音響モデルや言語モデルを内包するリカレントニューラルネットワーク(LSTM)のみで構成し、音声（音響特徴量）から音素／単語列を直接写像するものである。本研究では、音素単位・単語単位のモデルに加えて、サブワード（ワードピース）単位のモデルも学習し、比較及び統合を行った。音素単位認識率では音素単位のモデルが、単語単位認識率ではワードピース単位のモデルが、最も高い精度を得た。両者の特長を融合するために、End-to-Endモデルの枠組みで、それらのマルチタスク学習を導入した。その結果、対象話者２名という条件であるが、単語単位認識率85%（音素単位認識率95%）の精度を実現した。音声認識誤りのパターンを分析し、今後の改善のための方策を検討した。また、比較的データ量の多い話者を対象として、End-to-Endモデルに基づいて音声合成も試みた。音声認識・合成ともにアイヌ語においては初めての事例である。
現在までの達成度 (区分)	現在までの達成度 (区分) 1: 当初の計画以上に進展している理由アイヌ語アーカイブの２名の話者を対象として、単語単位認識率85%（文字単位認識率95%）の精度の音声認識を実現した。これは期待以上の精度であり、アーカイブのタイムスタンプ付与の自動化には十分であると考えられる。これに加えて、音声合成も試作した。
今後の研究の推進方策	話者数を増やし、多様なデータを対象として、音声認識モデルを発展・評価する。その際に、日本語の転移学習や日本語訳とのマルチターゲット学習なども検討する。音声合成についても改善を図る。
次年度使用額が生じた理由	研究に必要なパソコンなどの機材が今年度は現有のものでまかなえたためで、来年度に購入する予定。

研究成果

(4件)

すべて 2019 2018

すべて学会発表 (4件) (うち国際学会 3件)

[学会発表] End-to-endモデルに基づくアイヌ語の音声認識.2019
- 著者名/発表者名
  松浦孝平, 三村正人, 上乃聖, 坂井信輔, 河原達也.
- 学会等名
  日本音響学会研究発表会
[学会発表] Leveraging sequence-to-sequence speech synthesis for enhancing acoustic-to-word speech recognition.2018
- 著者名/発表者名
  M.Mimura, S.Ueno, H.Inaguma, S.Sakai, and T.Kawahara.
- 学会等名
  IEEE Spoken Language Technology Workshop (SLT)
- 国際学会
[学会発表] Improving OOV detection and resolution with external language models in acoustic-to-word ASR.2018
- 著者名/発表者名
  H.Inaguma, M.Mimura, S.Sakai, and T.Kawahara.
- 学会等名
  IEEE Spoken Language Technology Workshop (SLT)
- 国際学会
[学会発表] Acoustic-to-word attention-based model complemented with character-level CTC-based model.2018
- 著者名/発表者名
  S.Ueno, H.Inaguma, M.Mimura, and T.Kawahara.
- 学会等名
  IEEE-ICASSP
- 国際学会

2018 年度 実施状況報告書

アイヌ語アーカイブを対象としたEnd-to-End音声認識の研究

研究代表者

河原 達也 京都大学, 情報学研究科, 教授 (00234104)

現在までの達成度 (区分)

理由

研究成果

[学会発表] End-to-endモデルに基づくアイヌ語の音声認識.2019

著者名/発表者名

学会等名

[学会発表] Leveraging sequence-to-sequence speech synthesis for enhancing acoustic-to-word speech recognition.2018

著者名/発表者名

学会等名

[学会発表] Improving OOV detection and resolution with external language models in acoustic-to-word ASR.2018

著者名/発表者名

学会等名

[学会発表] Acoustic-to-word attention-based model complemented with character-level CTC-based model.2018

著者名/発表者名

学会等名

2018 年度実施状況報告書

河原達也京都大学, 情報学研究科, 教授 (00234104)