ゼロ・少音声言語資源の音声処理技術の構築

研究課題

研究課題/領域番号	21K12611
研究種目	基盤研究(C)
配分区分	基金
応募区分	一般
審査区分	小区分90030:認知科学関連
研究機関	岩手県立大学
研究代表者	伊藤慶明岩手県立大学, ソフトウェア情報学部, 教授 (90325928)
研究分担者	李時旭国立研究開発法人産業技術総合研究所, 情報・人間工学領域, 主任研究員 (50415642) 松原雅文岩手県立大学, ソフトウェア情報学部, 准教授 (70363728)
研究期間 (年度)	2021-04-01 – 2025-03-31
研究課題ステータス	交付 (2022年度)
配分額 *注記	4,160千円 (直接経費: 3,200千円、間接経費: 960千円) 2024年度: 780千円 (直接経費: 600千円、間接経費: 180千円) 2023年度: 1,430千円 (直接経費: 1,100千円、間接経費: 330千円) 2022年度: 1,040千円 (直接経費: 800千円、間接経費: 240千円) 2021年度: 910千円 (直接経費: 700千円、間接経費: 210千円)
キーワード	少資源音声 / 音声検索 / 方言音声
研究開始時の研究の概要	少資源の言語に対してアプローチする場合、言語の異なる豊富な音声言語資源の言語の音声認識システムの利用や、音声の特徴量ベースで音声同士を比較することで照合する等の方式が考えられるが、言語の差、話者の差、環境の差などがあり、容易には実現が困難である。そこでこれまでの我々の研究成果に基づき、高精度・高速・低容量の音声検索システムを発展させ、少資源の言語に対する音声情報処理技術の研究開発を行う。この検索技術を応用し方言音声の理解支援システムの構築を行う。最終的には、ゼロ資源言語に対して、検索機能の実現および理解支援システムへの展開を図る。
研究実績の概要	英語や日本語のように音声データやその書き起こしデータ（音声言語資源）が豊富な言語に対して研究が盛んに行われてきた。一方、マサイ語や方言音声のような音声データが少ない（少資源）あるいは音声データが殆どない（ゼロ資源）音声に対して、音声認識システムを構築することはできない。しかし、そのような言語に対して検索等の音声処理ができれば、理解への手助けなど、新しい展開が可能になる。そこで本研究課題では、少資源音声/ゼロ資源音声に対する検索技術および情報処理技術の構築を目指すものである。本研究課題を実現する上では、方言音声やゼロ資源言語に対して検索技術が有効な技術と位置付け、高精度・高速・低容量での音声検索技術の研究開発を推進している。令和４年度はこの技術を遠野方言に応用するため、新しい音声の検索方式として、最新の深層学習手法を導入し、音声中の音声検索語検出における平均事後確率ベクトル圧縮方式および、フレーム圧縮手法および複数の深層学習モデルのスコア統合方式、音声データの最尤および上位の状態系列の利用による検索精度向上方式を実装した。遠野の語り部の方言音声を分析すると、標準語日本語音声と比べ音声言語体系が異なるため単語単位での音声認識システムを用いることができず、キーワードの音素／音節列と、遠野音声の音素／音節列を照合する方式を研究開発した。遠野方言音声を用いた適応学習なしに、任意のキーワードの検索を実現することができることを確認した。またキーワードをそのまま音声（方言音声）で与え、音声同士を比較・検索する方式についても研究開発し、一旦深層学習モデルを通し、フレームレベル（1/100秒毎）の不特定特徴量で照合する方式を研究開発し、その有効性を検証した。さらに、これらの技術を応用し、これまで収録した遠野方言音声を利用し、方言音声理解支援のための新たな音声処理システムの設計を進めた．
現在までの達成度 (区分)	現在までの達成度 (区分) 2: おおむね順調に進展している理由日本語方言音声のような少資源言語やマサイ語のようなゼロ資源言語に対して、本研究課題では、高い精度で高速にかつ低容量で検索ができるシステムの開発と、その応用システムの開発を目指している。本年度も日本語方言音声に対しての高精度・高速・低容量の検索技術の確立を推進することを目的として研究を推進した。初年度から本度までの第1ステップでは、日本語の方言に対して最新の深層学習手法を導入し、新たな検索方式の研究開発を推進した。遠野の語り部の方言音声を分析すると、標準語日本語音声と比べ音声言語体系が異なるため単語単位での音声認識システムを用いることができず、キーワードの音素／音節列と、遠野音声の音素／音節列を照合する方式を研究開発し、遠野方言音声を用いた適応学習なしに、任意のキーワードの検索を実現できた。また、ゼロ資源音声を念頭にして、キーワードを音声で与えられた場合の照合方式を研究開発し、音節などの深層学習モデルから出力されるフレームレベルの音節事後確率と、遠野方言音声のフレームレベルの音節事後確率を直接照合することによりキーワード検出をする方式を実装し、おおむね予定通りの進捗と考える。現在は、キーワードの検出精度のさらなる向上を目指し研究開発中であり、予定通りの進捗と考える。
今後の研究の推進方策	当初計画通り、第1ステップでは、日本語の方言に対して最新の深層学習手法を導入し、新たな検索方式の研究開発を推進し、方言のように少資源音声に対して、従来手法に比べ、高精度でかつ高速、低容量の方言音声検索システムを実現、具体的には高精度は8割の検出率、高速は10時間の音声データに対し1秒以内あるいは入力音声に対してリアルタイム処理可能、低容量は100MB以内を目標とした。初年度および本年度の研究開発により、標準語の音声認識システムの音素や音節についての深層学習モデルを用いてキーワードの検索方式を実装し、遠野方言音声を用いた適応学習なしに、任意のキーワードの検索を実現した。当初目標に対し、9割近い検出精度、10時間の音声データに対し1秒以内、およびメモリは500GBの実装となった。メモリは目標に及ばないものの、検出精度および検索時間は目標を達成できた。研究3年度目以降は、方言の理解支援システムについての設計および研究開発と、上述の当初目標をすべて達成すべく、高精度・高速・低容量の方言音声検索システムの構築の研究開発を並行して推進する。また、第2ステップの音声資源が殆どないゼロ資源音声に対しては、第1ステップで研究開発した方言音声の検索技術を発展させるとともに、複数の外国語のモデルを利用して特定言語に依存しないモデルを構築し、これにより言語非依存のゼロ資源音声に対する検索技術の実現を目指していく。

報告書

(2件)

2022 実施状況報告書
2021 実施状況報告書

研究成果

(8件)

すべて 2023 2022 2021

すべて雑誌論文 (1件) (うち査読あり 1件) 学会発表 (7件) (うち国際学会 2件)

[雑誌論文] 音声中の音声検索語検出における平均事後確率ベクトル圧縮方式の提案2023
- 著者名/発表者名
  横田平志、小嶋和徳、李時旭、伊藤慶明
- 雑誌名
  
  情報処理学会論文誌
  
  巻: 64 号: 1 ページ: 236-246
- DOI
  10.20729/00223427
- 年月日
  2023-01-15
- 関連する報告書
  2022 実施状況報告書
- 査読あり
[学会発表] 音声中の音声検索語検出におけるフレーム圧縮手法および複数の深層学習モデルのスコア統合による検索精度・検索速度・メモリ量の改善”2023
- 著者名/発表者名
  畠山和望，小嶋和徳，李時旭，伊藤慶明
- 学会等名
  情報処理学会第85回全国大会
- 関連する報告書
  2022 実施状況報告書
[学会発表] 音声中の音声検索語検出における音声データの最尤および上位の状態系列の利用による検索精度向上2023
- 著者名/発表者名
  皆川玲緒，小嶋和徳，李時旭，伊藤慶明
- 学会等名
  情報処理学会第85回全国大会
- 関連する報告書
  2022 実施状況報告書
[学会発表] rame-Level Matching Scheme Using Posteriorgram Probability Distance of Spoken Data to Improve Search Accuracy of Spoken Term Detection,2022
- 著者名/発表者名
  Reo Minakawa, Kazunori Kojima, Shi-wook Lee, Yoshiaki Itoh
- 学会等名
  Asia-Pacific Signal and Information Processing Association Annual Summit and Conference
- 関連する報告書
  2022 実施状況報告書
- 国際学会
[学会発表] 楽曲ジャンル分類へのEfficientNetV2の適用2022
- 著者名/発表者名
  坂田大地，小嶋和徳，伊藤慶明
- 学会等名
  情報処理学会第84回全国大会
- 関連する報告書
  2021 実施状況報告書
[学会発表] Multiple Deep Learning Models and Architectures with Different Numbers of States Used to Improve Retrieval Accuracy of Query-by-Example2021
- 著者名/発表者名
  Kazuki Hatakeyama, Masahiro Nishino, Kazunori Kojima, Shi-wook Lee, Yoshiaki Itoh
- 学会等名
  Asia-Pacific Signal and Information Processing Association Annual Summit and Conference, APSIPA ASC
- 関連する報告書
  2021 実施状況報告書
- 国際学会
[学会発表] 異種・複数の深層学習モデルを用いた音声中の検索語検出方式の高精度・低メモリ化2021
- 著者名/発表者名
  西野将弘，伊藤慶明，小嶋和徳，李時旭
- 学会等名
  日本音響学会春季研究発表会
- 関連する報告書
  2021 実施状況報告書
[学会発表] 音声中の検索語検出における検索精度向上のためのフレームレベル照合方式2021
- 著者名/発表者名
  皆川玲緒，小嶋和徳，伊藤慶明
- 学会等名
  情報処理学会第84回全国大会
- 関連する報告書
  2021 実施状況報告書

ゼロ・少音声言語資源の音声処理技術の構築

研究代表者

伊藤 慶明 岩手県立大学, ソフトウェア情報学部, 教授 (90325928)

4,160千円 (直接経費: 3,200千円、間接経費: 960千円)

現在までの達成度 (区分)

理由

報告書

研究成果

[雑誌論文] 音声中の音声検索語検出における平均事後確率ベクトル圧縮方式の提案2023

著者名/発表者名

雑誌名

DOI

年月日

関連する報告書

[学会発表] 音声中の音声検索語検出におけるフレーム圧縮手法および複数の深層学習モデルのスコア統合による検索精度・検索速度・メモリ量の改善”2023

著者名/発表者名

学会等名

関連する報告書

[学会発表] 音声中の音声検索語検出における音声データの最尤および上位の状態系列の利用による検索精度向上2023

著者名/発表者名

学会等名

関連する報告書

[学会発表] rame-Level Matching Scheme Using Posteriorgram Probability Distance of Spoken Data to Improve Search Accuracy of Spoken Term Detection,2022

著者名/発表者名

学会等名

関連する報告書

[学会発表] 楽曲ジャンル分類へのEfficientNetV2の適用2022

著者名/発表者名

学会等名

関連する報告書

[学会発表] Multiple Deep Learning Models and Architectures with Different Numbers of States Used to Improve Retrieval Accuracy of Query-by-Example2021

著者名/発表者名

学会等名

関連する報告書

[学会発表] 異種・複数の深層学習モデルを用いた音声中の検索語検出方式の高精度・低メモリ化2021

著者名/発表者名

学会等名

関連する報告書

[学会発表] 音声中の検索語検出における検索精度向上のためのフレームレベル照合方式2021

著者名/発表者名

学会等名

関連する報告書

伊藤慶明岩手県立大学, ソフトウェア情報学部, 教授 (90325928)