研究概要 |
1. 少数言語のデータ収集:インドネシアに現存する4つの主要な少数言語からデータ収集を始めた(ジャワ語:ジャワ島中部、スンダ語:ジャワ島西部、バリ語:バリ島、バタック語:スマトラ島北部)。インドネシア少数言語のテキストコーパスは、地元の新聞・雑誌から収集し、ジャワ語、スンダ語、バリ語、バタック語の各少数言語につき2000~3000文を収集できた。うち、1000文を選んでネイティブの話者による校閲を行った。その後、Greedyアルゴリズムを用いて音素バランス付き文を処理し、各言語につき225の音素バランス付き文を生成した。(a)音素バランス付き音声コーパス:上記の音素バランス付き225文を用い、各少数言語につき10人(男性5人、女性5人)の話者による音声データの収集を行った。収録はインドネシア国内で実施した。各語につきそれぞれ音素バランス付きコーパスを合計2250文収集した。(b)対訳音声コーパス:音素バランス付きコーパスの他に、インドネシア語からジャワ語、スンダ語、バリ語、バタック語に翻訳された50文の対訳音声コーパスも収集した。この音声データについては、各言語につき10人(男性5人、女性5人)の話者による発話を収録した。 2. 音声認識:インドネシア語の音声認識ベースラインは、既存のインドネシア語音声データを用いて学習した。このコーパスでは、400人(男性200人、女性200人)の発話が収録されており、標準インドネシア語のアクセントとバタック語、ジャワ語、スンダ語のアクセントが付けられている。各話者は210文を発話しており、合計84,000発話、80時間の音声が収められている。また、上記の音声リソースおよび音声認識ベースラインに基づき、インドネシア少数言語の特性を分析した。また、少数言語の音声コーパスを音声認識ベースラインに適用し、少数言語の音声認識システムを開発した。
|