2018 Fiscal Year Research-status Report

アイヌ語アーカイブを対象としたEnd-to-End音声認識の研究

Research Project

Project/Area Number	18K19814
Research Institution	Kyoto University
Principal Investigator	河原達也京都大学, 情報学研究科, 教授 (00234104)
Co-Investigator(Kenkyū-buntansha)	奥田統己札幌学院大学, 人文学部, 教授 (60224151)
Project Period (FY)	2018-06-29 – 2020-03-31
Keywords	アイヌ語 / 音声認識 / 消滅危機言語 / End-to-Endモデル
Outline of Annual Research Achievements	我が国における代表的な消滅危機言語であるアイヌ語を対象として、音声認識の研究を行った。アイヌ語アーカイブを構築している博物館から音声データの提供を受けて、発話の区分化と音素及び単語の系列との対応付け（アノテーション）を行った。アイヌ語の専門家である研究分担者と議論しながら、認識の単位を設計した。近年研究が進展している深層学習に基づくEnd-to-Endモデルに基づいて認識システムを構築した。これは、単語辞書や複雑な認識プログラムを必要とせず、音響モデルや言語モデルを内包するリカレントニューラルネットワーク(LSTM)のみで構成し、音声（音響特徴量）から音素／単語列を直接写像するものである。本研究では、音素単位・単語単位のモデルに加えて、サブワード（ワードピース）単位のモデルも学習し、比較及び統合を行った。音素単位認識率では音素単位のモデルが、単語単位認識率ではワードピース単位のモデルが、最も高い精度を得た。両者の特長を融合するために、End-to-Endモデルの枠組みで、それらのマルチタスク学習を導入した。その結果、対象話者２名という条件であるが、単語単位認識率85%（音素単位認識率95%）の精度を実現した。音声認識誤りのパターンを分析し、今後の改善のための方策を検討した。また、比較的データ量の多い話者を対象として、End-to-Endモデルに基づいて音声合成も試みた。音声認識・合成ともにアイヌ語においては初めての事例である。
Current Status of Research Progress	Current Status of Research Progress 1: Research has progressed more than it was originally planned. Reason アイヌ語アーカイブの２名の話者を対象として、単語単位認識率85%（文字単位認識率95%）の精度の音声認識を実現した。これは期待以上の精度であり、アーカイブのタイムスタンプ付与の自動化には十分であると考えられる。これに加えて、音声合成も試作した。
Strategy for Future Research Activity	話者数を増やし、多様なデータを対象として、音声認識モデルを発展・評価する。その際に、日本語の転移学習や日本語訳とのマルチターゲット学習なども検討する。音声合成についても改善を図る。
Causes of Carryover	研究に必要なパソコンなどの機材が今年度は現有のものでまかなえたためで、来年度に購入する予定。

Research Products
(4 results)

All 2019 2018

All Presentation (4 results) (of which Int'l Joint Research: 3 results)

[Presentation] End-to-endモデルに基づくアイヌ語の音声認識.2019
- Author(s)
  松浦孝平, 三村正人, 上乃聖, 坂井信輔, 河原達也.
- Organizer
  日本音響学会研究発表会
[Presentation] Leveraging sequence-to-sequence speech synthesis for enhancing acoustic-to-word speech recognition.2018
- Author(s)
  M.Mimura, S.Ueno, H.Inaguma, S.Sakai, and T.Kawahara.
- Organizer
  IEEE Spoken Language Technology Workshop (SLT)
- Int'l Joint Research
[Presentation] Improving OOV detection and resolution with external language models in acoustic-to-word ASR.2018
- Author(s)
  H.Inaguma, M.Mimura, S.Sakai, and T.Kawahara.
- Organizer
  IEEE Spoken Language Technology Workshop (SLT)
- Int'l Joint Research
[Presentation] Acoustic-to-word attention-based model complemented with character-level CTC-based model.2018
- Author(s)
  S.Ueno, H.Inaguma, M.Mimura, and T.Kawahara.
- Organizer
  IEEE-ICASSP
- Int'l Joint Research

2018 Fiscal Year Research-status Report

アイヌ語アーカイブを対象としたEnd-to-End音声認識の研究

Principal Investigator

河原 達也 京都大学, 情報学研究科, 教授 (00234104)

Current Status of Research Progress

Reason

Research Products

[Presentation] End-to-endモデルに基づくアイヌ語の音声認識.2019

Author(s)

Organizer

[Presentation] Leveraging sequence-to-sequence speech synthesis for enhancing acoustic-to-word speech recognition.2018

Author(s)

Organizer

[Presentation] Improving OOV detection and resolution with external language models in acoustic-to-word ASR.2018

Author(s)

Organizer

[Presentation] Acoustic-to-word attention-based model complemented with character-level CTC-based model.2018

Author(s)

Organizer

河原達也京都大学, 情報学研究科, 教授 (00234104)