研究課題/領域番号 |
21H03467
|
配分区分 | 補助金 |
研究機関 | 北陸先端科学技術大学院大学 |
研究代表者 |
SAKTI Sakriani 北陸先端科学技術大学院大学, 先端科学技術研究科, 准教授 (00395005)
|
研究分担者 |
中村 哲 奈良先端科学技術大学院大学, データ駆動型サイエンス創造センター, 教授 (30263429)
|
研究期間 (年度) |
2021-04-01 – 2026-03-31
|
キーワード | 低資源音声技術 / 多言語音声認識 / 多言語音声合成 / 音声翻訳 / Machine Speech Chain |
研究実績の概要 |
新型コロナ感染等による危機管理のグローバル化や、大型国際イベントの開催など、海外からの居住者および観光客との言葉の壁は深刻な問題となっている。いくつかの音声翻訳サービスが実用化されているが、高精度の翻訳性能を実現するために、広範な音声と対応する書き起こしデータを使用する教師あり学習ディープラーニングに基づいた音声翻訳の開発が必須である。本研究では、人間の言語習得プロセス、特にSpeech Chain メカニズムに基づいて、多言語の言語習得のための新しいディープラーニングの教師なしおよび半教師あり学習メカニズムを提案する。 R3年度では、(課題1)人間の言語処理および認知に関する文献調査、(課題2)リソースの少ない言語の音声およびテキストデータの収集、(課題3)多言語Machine Speech Chainフレームワークの開発を中心に行った。データ収集に関しては、25の低リソース言語で音声とテキストのデータを収集した。多言語Machine Speech Chainフレームワークに関しては、ジャワ語、スンダ語、バリ語、バタク語などのインドネシアの民族言語の音声認識と合成の開発に成功した。 また、ジャワ語とアフリカ語(Mboshi)の言語でDPGMMとDPGMM-RNNハイブリッドモデルを使用した低リソースASRについても調査した。また、来年の目標であるリアルタイム学習Machine Speech Chainフレームワークのインクリメンタル音声認識と音声合成の作業も開始した。合計で、4つの査読付きジャーナル、5つの査読付き国際会議論文、および3つの国内会議論文の発行に成功した。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
パートタイムの学生を何人か雇って、リソースの少ない言語の音声とテキストのデータを自分たちで収集して分析することを計画した。 しかし、COVIDの大流行のため、それを行うのは困難だった。 ただし、利用可能なデータを購入し、音声録音会社を通じてデータを収集することはできた。 結果として、リソースの少ない25の言語から音声およびテキストデータを収集することに成功した。また、多くの言語用の多言語Machine Speech Chainは開発していないが、一部の低リソース言語用の音声認識とMachine Speech Chainの構築に成功した。さらに、来年の目標であるリアルタイム学習機械音声チェーンフレームワークの増分音声認識と音声合成の作業も開始した。トップジャーナルやトップ国際会議での出版も達成できた。研究代表者は、いくつかの国際ワークショップで基調講演を行うよう招待された。
|
今後の研究の推進方策 |
R4年度で以下の課題を構成して取り組む。 課題3:多言語Machine Speech Chainフレームワーク「話しながら聞いて多言語を学ぶ」(オフライン半教師あり学習)の開発に関しては、実験を継続する。特にMachine Speech Chainの性能を改善し、さらにより多くの言語を調査する。 課題4:多言語Machine Speech Chainフレームワークの改善、リアルタイム学習(オフラインとオンライン学習)の開発に関しては、インクリメンタルMachine Speech Chainの開発を継続する。 課題5:多言語Machine Speech Chainフレームワークの改善、自己Lifelong学習(オンライン学習)を開発する方法の調査を開始する。
|