研究課題/領域番号 |
18K19814
|
研究機関 | 京都大学 |
研究代表者 |
河原 達也 京都大学, 情報学研究科, 教授 (00234104)
|
研究分担者 |
奥田 統己 札幌学院大学, 人文学部, 教授 (60224151)
|
研究期間 (年度) |
2018-06-29 – 2020-03-31
|
キーワード | アイヌ語 / 音声認識 / 消滅危機言語 / End-to-Endモデル |
研究実績の概要 |
我が国における代表的な消滅危機言語であるアイヌ語を対象として、音声認識の研究を行った。アイヌ語アーカイブを構築している博物館から音声データの提供を受けて、発話の区分化と音素及び単語の系列との対応付け(アノテーション)を行った。 アイヌ語の専門家である研究分担者と議論しながら、認識の単位を設計した。近年研究が進展している深層学習に基づくEnd-to-Endモデルに基づいて認識システムを構築した。これは、単語辞書や複雑な認識プログラムを必要とせず、音響モデルや言語モデルを内包するリカレントニューラルネットワーク(LSTM)のみで構成し、音声(音響特徴量)から音素/単語列を直接写像するものである。本研究では、音素単位・単語単位のモデルに加えて、サブワード(ワードピース)単位のモデルも学習し、比較及び統合を行った。音素単位認識率では音素単位のモデルが、単語単位認識率ではワードピース単位のモデルが、最も高い精度を得た。両者の特長を融合するために、End-to-Endモデルの枠組みで、それらのマルチタスク学習を導入した。 その結果、対象話者2名という条件であるが、単語単位認識率85%(音素単位認識率95%)の精度を実現した。音声認識誤りのパターンを分析し、今後の改善のための方策を検討した。また、比較的データ量の多い話者を対象として、End-to-Endモデルに基づいて音声合成も試みた。音声認識・合成ともにアイヌ語においては初めての事例である。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
1: 当初の計画以上に進展している
理由
アイヌ語アーカイブの2名の話者を対象として、単語単位認識率85%(文字単位認識率95%)の精度の音声認識を実現した。これは期待以上の精度であり、アーカイブのタイムスタンプ付与の自動化には十分であると考えられる。これに加えて、音声合成も試作した。
|
今後の研究の推進方策 |
話者数を増やし、多様なデータを対象として、音声認識モデルを発展・評価する。その際に、日本語の転移学習や日本語訳とのマルチターゲット学習なども検討する。 音声合成についても改善を図る。
|
次年度使用額が生じた理由 |
研究に必要なパソコンなどの機材が今年度は現有のものでまかなえたためで、来年度に購入する予定。
|