研究課題/領域番号 |
24700172
|
研究機関 | 奈良先端科学技術大学院大学 |
研究代表者 |
サクリアニ サクティ 奈良先端科学技術大学院大学, 情報科学研究科, 助教 (00395005)
|
研究期間 (年度) |
2012-04-01 – 2014-03-31
|
キーワード | 国際研究者交流 |
研究概要 |
1.研究調査:本プロジェクトにより、少数言語の音声認識研究に関して多くの研究者と議論を交わすことができた。 2.少数言語のデータ収集:結果、少数言語のコーパスを収集することができた。 テキストコーパスについて、インドネシア少数言語のテキストコーパスは、地元のの新聞・雑誌から収集し、ジャワ語、スンダ語、バリ語、バタック語の各少数言語につき2000~3000文を収集できた。うち、1000文を選んでネイティブの話者による校閲を行った。その後、Greedyアルゴリズムを用いて音素バランス付き文を処理し、各言語につき225の音素バランス付き文を生成した。音声コーパスについて、(1)音素バランス付き音声コーパス:上記の音素バランス付き225文を用い、各少数言語につき10人(男性5人、女性5人)の話者による音声データの収集を行った。収録はインドネシア国内で実施した。ジャワ語、スンダ語、バリ語、バタック語につきそれぞれ音素バランス付きコーパスを合計2250文収集した;(2)対訳音声コーパス:音素バランス付きコーパスの他に、インドネシア語からジャワ語、スンダ語、バリ語、バタック語に翻訳された50文の対訳音声コーパスも収集した。この音声データ については、各言語につき10人(男性5人、女性5人)の話者による発話を収録した。 3.インドネシア語の音声認識ベースラインは、既存のインドネシア語音声データ(ニュースおよび電話会話)を用いて学習した。使用したコーパスは、APT (Asia Pacific Telecommunity) の継続プロジェクトとしてATRと共同開発したものである。このコーパスでは、400人の話者(男性200人、女性200人)の発話が収録されている。各話者は210文を発話しており、合計84,000発話、80時間の音声が収められている。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
本プロジェクトにより、音声処理関連の会議に出席する機会を得ることができ、少数言語の音声認識研究に関して多くの研究者と 議論を交わすことがで きた。少数言語のデータ収集について、インドネシアに現存する4つの主要な少数言語からデータ収集を始 めた( ジャワ語、スンダ語、バリ語、バタック語)。結果、下記少数言語のコーパスを収集することができた:(1)テキストコーパス:インドネシア少数言語のテキストコーパス は、地元の新聞・雑誌から収集し、ジャワ語、スンダ語、バリ語、バタック語の各少数言語につき2000~3000文を収集できた。うち、1000文を選んでネ イティブの話者による校閲を行った。その後、Greedyアルゴリズムを用いて音素バランス付き文を処理し、各言語につき225の音素バランス付き文を生成した;(2)音声コーパス:上記の音素バランス付き225文を用い、各少数言語につき10人の話者による音声データの収集を行っ た。音素バランス付きコーパスの他に、インドネシア語からジャワ語、スンダ語、バリ語、バタック語に翻訳された50文の対訳音声コーパスも収集した;(3)音声認 識システムベースライン:インドネシア語の音声認識ベースラインは、既存のインドネシア語音声データ(ニュースおよび電話会話)を用いて学習した。このコーパスでは、400人の話者の発話が収録されている。話者の発話は、標準インドネシア 語のアクセントと3つのネイティブ言語(バタック語、ジャワ語、スンダ語)のアクセントが付けられている。各話者は210文を発話しており、合計84,000発 話、80時間の音声が収められている。上記の音声リソースおよび音声認識ベースラインに基づき、インドネシア少数言語の特性を分析することが可能となった。
|
今後の研究の推進方策 |
今後の課題として、研究計画にあげた項目の継続的作業を検討している。 1. より多くの少数言語の音声源を収録する。それで、少数言語の音声コーパスで音声認識システムのベースラインを適応/再学習する。 2.知識源統合フレームワーク:知識統合フレームワークの設計および開発、提案したフレームワークを音声認識システムの各レベルに適用 3. 音声認識の性能評価,プロトタイプの実証実験,プロジェクトまとめ
|
次年度の研究費の使用計画 |
1年の計画で終了予定であったタスクの大半を達成することがで きたが、データ収集は、事務手続き等が原因で当初の予定よりも長くかかった。したがい、データ収集は特定の少数言語に限定さ れ、様々な知識源を統合したフレームワークによる音声認識のベースライ ンを構築するには至らなかった。これが最初の年に予算が残っている主 な理 由です。 次年度の研究費の使用計画は以下の通りです:研究成果発表(100), 研究成果発表 (430) 話者謝金,書き起こし謝金,主観評価 (800),計 (1330)
|