2019 Fiscal Year Research-status Report
アイヌ語アーカイブを対象としたEnd-to-End音声認識の研究
Project/Area Number |
18K19814
|
Research Institution | Kyoto University |
Principal Investigator |
河原 達也 京都大学, 情報学研究科, 教授 (00234104)
|
Co-Investigator(Kenkyū-buntansha) |
奥田 統己 札幌学院大学, 人文学部, 教授 (60224151)
|
Project Period (FY) |
2018-06-29 – 2021-03-31
|
Keywords | アイヌ語 / 音声認識 / 音声合成 / 消滅危機言語 / End-to-Endモデル |
Outline of Annual Research Achievements |
我が国を構成する民族の一つであるアイヌは独自の言語を用いて文化を口頭で伝承してきたが、アイヌ語は母語話者の数が減り消滅の危機に瀕している。口頭伝承を録音することでアイヌ文化の保存が図られてきたが、その大部分は書き起こされておらず、十分に活用されていない。本研究では、アイヌ民族博物館と二風谷アイヌ文化博物館から提供されたアイヌ語アーカイブのデータから、民話を対象として音声認識のモデル化と構築を行っている。アイヌ語の専門家である研究分担者と議論しながら、認識の単位や話者のモデル化の検討を進めた。 近年研究が進展している深層学習に基づくEnd-to-Endモデルを用いて、音声認識システムを構築した。具体的には、注意機構モデルに Connectionist Temporal Classification(CTC)を組み合わせたものを用いた。音素、音節、ワードピース、単語の各認識単位によって学習したモデルによる認識性能を比較し、単語認識精度と音素認識精度の両方について音節単位が最も高いという知見を得た。話者クローズの場合、各話者について3時間程度の学習データがあれば、単語認識精度で80%以上、音素認識精度で90%以上となることがわかった。話者オープンの場合、話者によって大きく異なるが、単語認識精度は平均的に60%程度(音素認識精度は85%程度)となった。また、日本語コーパスとのマルチリンガル学習の導入も行い、話者オープンの場合に効果を確認した。 さらに、比較的データ量の多い2名の話者を対象として、End-to-Endモデルに基づいて音声合成も試みた。話者性を保持しながら、一定の品質の音声を合成することができた。
|
Current Status of Research Progress |
Current Status of Research Progress
1: Research has progressed more than it was originally planned.
Reason
2つの博物館から提供頂いたアイヌ語アーカイブの8名の話者を対象として、単語単位認識精度80%(文字単位認識精度90%)の音声認識を実現した。これは期待以上の精度であり、アーカイブの時間情報付与の自動化には十分であると考えられる。これに加えて、音声合成についても大きな可能性を得た。
|
Strategy for Future Research Activity |
音声認識については、さらなる精度向上のための方法を検討する。 アーカイブの時間情報付与や書き起こしにおける有用性を検証する。
|
Causes of Carryover |
新型コロナウイルスの感染拡大に伴い、3月に予定していた北海道での研究打合せを延期した。来年度に実施したいと考えている。
|
Research Products
(4 results)