2019 年度研究成果報告書

ゼロ資源での教師なし音響パターン発見のための研究

研究課題

PDF

研究課題/領域番号	17K00237
研究種目	基盤研究(C)
配分区分	基金
応募区分	一般
研究分野	知覚情報処理
研究機関	奈良先端科学技術大学院大学
研究代表者	サクリアニサクティ奈良先端科学技術大学院大学, 先端科学技術研究科, 特任准教授 (00395005)
研究分担者	中村哲奈良先端科学技術大学院大学, データ駆動型サイエンス創造センター, 教授 (30263429)
研究期間 (年度)	2017-04-01 – 2020-03-31
キーワード	音声認識 / ゼロ資源音声技術 / 脳波 / 音声翻訳
研究成果の概要	東京オリンピック・パラリンピックが近づくにつれ、海外からの観光客との言葉の壁はますます深刻な問題となっている。現在の音声認識・音声翻訳技術は、リソースが大きい言語についてはすでに容易に利用できるため、ここでは言語特有の知識も書き起こしデータもないようなゼロ資源の音声処理の問題を対象とした。未知言語を理解するため、人間の脳が言語を処理する過程の分析・調査を行った。さらに、深層学習に基づく閉ループスピーチチェインモデルを開発して、機械が話している間、聞く方法を学習できるようにした。これは、人間の音声認識と生産行動を統合した最初のディープラーニングモデルである。
自由記述の分野	情報学
研究成果の学術的意義や社会的意義	アフリカ言語（ツォンガ語）とインドネシア言語のゼロリソースモデリングの構築に成功した。また、2017年と2019年の世界ゼロ資源スピーチチャレンジに参加し、提案手法で上位結果を得ることができた。さらに、深層学習に基づく閉ループスピーチチェインモデルを開発して、機械が話している間、聞く方法を学習できるようにした。2019年では世界言語言語コンソーシアムのためにユネスコとも協力した。この研究の結果は、トップ会議（ASRU、Interspeech、ICASSP）とトップジャーナル(IEEE / ACM TASLP)で公開された。さらに、スピーチチェインモデルの特許も取得した。