2018 Fiscal Year Research-status Report
アイヌ語アーカイブを対象としたEnd-to-End音声認識の研究
Project/Area Number |
18K19814
|
Research Institution | Kyoto University |
Principal Investigator |
河原 達也 京都大学, 情報学研究科, 教授 (00234104)
|
Co-Investigator(Kenkyū-buntansha) |
奥田 統己 札幌学院大学, 人文学部, 教授 (60224151)
|
Project Period (FY) |
2018-06-29 – 2020-03-31
|
Keywords | アイヌ語 / 音声認識 / 消滅危機言語 / End-to-Endモデル |
Outline of Annual Research Achievements |
我が国における代表的な消滅危機言語であるアイヌ語を対象として、音声認識の研究を行った。アイヌ語アーカイブを構築している博物館から音声データの提供を受けて、発話の区分化と音素及び単語の系列との対応付け(アノテーション)を行った。 アイヌ語の専門家である研究分担者と議論しながら、認識の単位を設計した。近年研究が進展している深層学習に基づくEnd-to-Endモデルに基づいて認識システムを構築した。これは、単語辞書や複雑な認識プログラムを必要とせず、音響モデルや言語モデルを内包するリカレントニューラルネットワーク(LSTM)のみで構成し、音声(音響特徴量)から音素/単語列を直接写像するものである。本研究では、音素単位・単語単位のモデルに加えて、サブワード(ワードピース)単位のモデルも学習し、比較及び統合を行った。音素単位認識率では音素単位のモデルが、単語単位認識率ではワードピース単位のモデルが、最も高い精度を得た。両者の特長を融合するために、End-to-Endモデルの枠組みで、それらのマルチタスク学習を導入した。 その結果、対象話者2名という条件であるが、単語単位認識率85%(音素単位認識率95%)の精度を実現した。音声認識誤りのパターンを分析し、今後の改善のための方策を検討した。また、比較的データ量の多い話者を対象として、End-to-Endモデルに基づいて音声合成も試みた。音声認識・合成ともにアイヌ語においては初めての事例である。
|
Current Status of Research Progress |
Current Status of Research Progress
1: Research has progressed more than it was originally planned.
Reason
アイヌ語アーカイブの2名の話者を対象として、単語単位認識率85%(文字単位認識率95%)の精度の音声認識を実現した。これは期待以上の精度であり、アーカイブのタイムスタンプ付与の自動化には十分であると考えられる。これに加えて、音声合成も試作した。
|
Strategy for Future Research Activity |
話者数を増やし、多様なデータを対象として、音声認識モデルを発展・評価する。その際に、日本語の転移学習や日本語訳とのマルチターゲット学習なども検討する。 音声合成についても改善を図る。
|
Causes of Carryover |
研究に必要なパソコンなどの機材が今年度は現有のものでまかなえたためで、来年度に購入する予定。
|
Research Products
(4 results)