• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to previous page

アイヌ語アーカイブを対象としたEnd-to-End音声認識の研究

Research Project

Project/Area Number 18K19814
Research Category

Grant-in-Aid for Challenging Research (Exploratory)

Allocation TypeMulti-year Fund
Review Section Medium-sized Section 61:Human informatics and related fields
Research InstitutionKyoto University

Principal Investigator

河原 達也  京都大学, 情報学研究科, 教授 (00234104)

Co-Investigator(Kenkyū-buntansha) 奥田 統己  札幌学院大学, 人文学部, 教授 (60224151)
Project Period (FY) 2018-06-29 – 2021-03-31
Project Status Granted (Fiscal Year 2019)
Budget Amount *help
¥6,240,000 (Direct Cost: ¥4,800,000、Indirect Cost: ¥1,440,000)
Fiscal Year 2019: ¥3,120,000 (Direct Cost: ¥2,400,000、Indirect Cost: ¥720,000)
Fiscal Year 2018: ¥3,120,000 (Direct Cost: ¥2,400,000、Indirect Cost: ¥720,000)
Keywordsアイヌ語 / 音声認識 / 音声合成 / 消滅危機言語 / End-to-Endモデル
Outline of Annual Research Achievements

我が国を構成する民族の一つであるアイヌは独自の言語を用いて文化を口頭で伝承してきたが、アイヌ語は母語話者の数が減り消滅の危機に瀕している。口頭伝承を録音することでアイヌ文化の保存が図られてきたが、その大部分は書き起こされておらず、十分に活用されていない。本研究では、アイヌ民族博物館と二風谷アイヌ文化博物館から提供されたアイヌ語アーカイブのデータから、民話を対象として音声認識のモデル化と構築を行っている。アイヌ語の専門家である研究分担者と議論しながら、認識の単位や話者のモデル化の検討を進めた。
近年研究が進展している深層学習に基づくEnd-to-Endモデルを用いて、音声認識システムを構築した。具体的には、注意機構モデルに Connectionist Temporal Classification(CTC)を組み合わせたものを用いた。音素、音節、ワードピース、単語の各認識単位によって学習したモデルによる認識性能を比較し、単語認識精度と音素認識精度の両方について音節単位が最も高いという知見を得た。話者クローズの場合、各話者について3時間程度の学習データがあれば、単語認識精度で80%以上、音素認識精度で90%以上となることがわかった。話者オープンの場合、話者によって大きく異なるが、単語認識精度は平均的に60%程度(音素認識精度は85%程度)となった。また、日本語コーパスとのマルチリンガル学習の導入も行い、話者オープンの場合に効果を確認した。
さらに、比較的データ量の多い2名の話者を対象として、End-to-Endモデルに基づいて音声合成も試みた。話者性を保持しながら、一定の品質の音声を合成することができた。

Current Status of Research Progress
Current Status of Research Progress

1: Research has progressed more than it was originally planned.

Reason

2つの博物館から提供頂いたアイヌ語アーカイブの8名の話者を対象として、単語単位認識精度80%(文字単位認識精度90%)の音声認識を実現した。これは期待以上の精度であり、アーカイブの時間情報付与の自動化には十分であると考えられる。これに加えて、音声合成についても大きな可能性を得た。

Strategy for Future Research Activity

音声認識については、さらなる精度向上のための方法を検討する。
アーカイブの時間情報付与や書き起こしにおける有用性を検証する。

Report

(2 results)
  • 2019 Research-status Report
  • 2018 Research-status Report

Research Products

(8 results)

All 2019 2018

All Presentation

  • [Presentation] 民話を対象としたアイヌ語音声コーパスとend-to-end音声認識2019

    • Author(s)
      松浦孝平, 上乃聖, 三村正人, 坂井信輔, 河原達也
    • Organizer
      情報処理学会研究報告 SLP-130-16
    • Related Report
      2019 Research-status Report
  • [Presentation] End-to-endモデルに基づくアイヌ語音声認識におけるクロスリンガル話者拡張敵対学習2019

    • Author(s)
      松浦孝平, 上乃聖, 三村正人, 坂井信輔, 河原達也
    • Organizer
      日本音響学会研究発表会講演論文集
    • Related Report
      2019 Research-status Report
  • [Presentation] Multi-lingual transformer training for Khmer automatic speech recognition2019

    • Author(s)
      K.Soky, S.Li, T.Kawahara, and S.Seng
    • Organizer
      APSIPA ASC
    • Related Report
      2019 Research-status Report
    • Int'l Joint Research
  • [Presentation] Multi-speaker sequence-to-sequence speech synthesis for data augmentation in acoustic-to-word speech recognition2019

    • Author(s)
      S.Ueno, M.Mimura, S.Sakai, and T.Kawahara
    • Organizer
      IEEE-ICASSP
    • Related Report
      2019 Research-status Report
    • Int'l Joint Research
  • [Presentation] End-to-endモデルに基づくアイヌ語の音声認識.2019

    • Author(s)
      松浦孝平, 三村正人, 上乃聖, 坂井信輔, 河原達也.
    • Organizer
      日本音響学会研究発表会
    • Related Report
      2018 Research-status Report
  • [Presentation] Leveraging sequence-to-sequence speech synthesis for enhancing acoustic-to-word speech recognition.2018

    • Author(s)
      M.Mimura, S.Ueno, H.Inaguma, S.Sakai, and T.Kawahara.
    • Organizer
      IEEE Spoken Language Technology Workshop (SLT)
    • Related Report
      2018 Research-status Report
    • Int'l Joint Research
  • [Presentation] Improving OOV detection and resolution with external language models in acoustic-to-word ASR.2018

    • Author(s)
      H.Inaguma, M.Mimura, S.Sakai, and T.Kawahara.
    • Organizer
      IEEE Spoken Language Technology Workshop (SLT)
    • Related Report
      2018 Research-status Report
    • Int'l Joint Research
  • [Presentation] Acoustic-to-word attention-based model complemented with character-level CTC-based model.2018

    • Author(s)
      S.Ueno, H.Inaguma, M.Mimura, and T.Kawahara.
    • Organizer
      IEEE-ICASSP
    • Related Report
      2018 Research-status Report
    • Int'l Joint Research

URL: 

Published: 2018-07-25   Modified: 2021-01-27  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi