ゼロ・少音声言語資源の音声処理技術の構築

Research Project

Project/Area Number	21K12611
Research Category	Grant-in-Aid for Scientific Research (C)
Allocation Type	Multi-year Fund
Section	一般
Review Section	Basic Section 90030:Cognitive science-related
Research Institution	Iwate Prefectural University
Principal Investigator	伊藤慶明岩手県立大学, ソフトウェア情報学部, 教授 (90325928)
Co-Investigator(Kenkyū-buntansha)	李時旭国立研究開発法人産業技術総合研究所, 情報・人間工学領域, 主任研究員 (50415642) 松原雅文岩手県立大学, ソフトウェア情報学部, 准教授 (70363728)
Project Period (FY)	2021-04-01 – 2025-03-31
Project Status	Granted (Fiscal Year 2023)
Budget Amount *help	¥4,160,000 (Direct Cost: ¥3,200,000、Indirect Cost: ¥960,000) Fiscal Year 2024: ¥780,000 (Direct Cost: ¥600,000、Indirect Cost: ¥180,000) Fiscal Year 2023: ¥1,430,000 (Direct Cost: ¥1,100,000、Indirect Cost: ¥330,000) Fiscal Year 2022: ¥1,040,000 (Direct Cost: ¥800,000、Indirect Cost: ¥240,000) Fiscal Year 2021: ¥910,000 (Direct Cost: ¥700,000、Indirect Cost: ¥210,000)
Keywords	方言音声 / 少資源音声言語 / キーワード検索 / 方言音声理解 / 少資源音声 / 音声検索
Outline of Research at the Start	少資源の言語に対してアプローチする場合、言語の異なる豊富な音声言語資源の言語の音声認識システムの利用や、音声の特徴量ベースで音声同士を比較することで照合する等の方式が考えられるが、言語の差、話者の差、環境の差などがあり、容易には実現が困難である。そこでこれまでの我々の研究成果に基づき、高精度・高速・低容量の音声検索システムを発展させ、少資源の言語に対する音声情報処理技術の研究開発を行う。この検索技術を応用し方言音声の理解支援システムの構築を行う。最終的には、ゼロ資源言語に対して、検索機能の実現および理解支援システムへの展開を図る。
Outline of Annual Research Achievements	音声データやその書き起こしデータ（音声言語資源）が豊富な言語(日本語や英語等）がある一方、少数民族の言語や方言音声のように音声データ自体が少ない（少資源）あるいは音声データが殆どない（ゼロ資源）音声言語が存在する。豊富な音声言語資源に対しては高精度な音声認識システムが実現されているが、少資源音声言語やゼロ資源音声言語に対しては音声認識システムを構築することは困難である。一方、少言語に対して単語やフレーズで検索等の音声処理ができれば、理解への手助けなどの新しい技術展開が可能になる。そこで本研究課題では、少資源・ゼロ資源音声に対する検索技術および情報処理技術の構築を目指すものである。我々は、少資源音声に対して有効な技術として検索技術を位置付け、その研究開発を推進している。本研究課題の実現には高精度・高速・低容量でのシステム実装が必要であり課題開始ととものにその実現方式の研究開発を推進している。令和4年度はこの技術を遠野方言に応用するため、新しい音声の検索方式として最新の深層学習手法を導入し、音声データの最尤および上位の状態系列の利用による検索精度向上方式を研究開発した。キーワードを音声（方言音声）で与え、音声同士を比較・検索する方式についても検討し、一旦深層学習モデルを通しフレームレベル（1/100秒毎）の不特定特徴量で照合する方式を研究開発し、その有効性を検証した。令和5年度は、キーワードを音節または音素としてテキストで与え、そのキーワード列を疑似的なフレーム列に変換する方式を研究開発し、キーワードを方言音声で与えて音声同士を深層学習モデルに通したその特徴量で比較する方式に比べ、高い検索精度が得られることを実証した。この方式は、標準語音声のみで学習したモデルを利用しており、遠野方言音声を用いた適応学習なしに、任意のキーワードの検索が実現できることを確認した。
Current Status of Research Progress	Current Status of Research Progress 2: Research has progressed on the whole more than it was originally planned. Reason 日本語の方言音声のような少資源言語や少数民族における音声言語資源が殆どないゼロ資源言語に対して、本研究課題では、高い精度で高速にかつ低容量で検索ができるシステムの開発と、その応用システムの開発を目指している。本年度も日本語方言音声に対しての高精度・高速・低容量の検索技術の確立を推進することを目的として研究を推進した。昨年度までの第1ステップでは、日本語の方言に対して最新の深層学習手法を導入し、新たな検索方式の研究開発を推進した。遠野の語り部の方言音声を分析すると、標準語日本語音声と比べ音声言語体系が異なるため単語単位での音声認識システムを用いることができず、キーワードの音素／音節列と、遠野音声の音素／音節列を照合する方式を研究開発し、遠野方言音声を用いた適応学習なしに、任意のキーワードの検索を実現できた。また、ゼロ資源音声を念頭にして、キーワードを音声で与えられた場合の照合方式を研究開発し、音節などの深層学習モデルから出力されるフレームレベルの音節事後確率を用いることによりキーワード検出をする方式を実装した。令和5年度は、方言音声のキーワードを聴取者が音節（または音素）に変換し、それをテキストとして与え、そのキーワードの音節（音素）列を疑似的なフレーム列に変換する方式を研究開発し、キーワードを方言音声で与えて音声同士を深層学習モデルに通してその特徴量で比較する方式や他の方式に比べ、最も高い検索精度が得られることを実証した。この方式は、標準語音声のみで学習したモデルを利用しており、遠野方言音声を用いた適応学習なしに、任意のキーワードの検索が実現できることを確認した。以上より、現在おおむね予定通りの進捗と考える。現在は、キーワードの検出精度のさらなる向上を目指すとともに、ゼロ資源言語を念頭に多言語への展開を図ることを進めており、予定通りの進捗と考える。
Strategy for Future Research Activity	当初計画通り、R3年度の第1ステップでは、日本語の方言に対して最新の深層学習手法を導入し、新たな検索方式の研究開発を推進し、従来手法に比べ、8割程度の高い検出率精度で、入力音声に対してリアルタイム処理可能かつ10時間の音声データに対し1秒以内で、必要メモリ量が100MB以内と低容量の方言音声検索システムを実現した。R3およびR4年度での研究開発により、標準語の音声認識システムの音素や音節についての深層学習モデルを用いてキーワードの検索方式を実装し、遠野方言音声を用いた適応学習なしに、任意のキーワードの検索を実現した。当初目標に対し、9割近い検出精度、10時間の音声データに対し1秒以内、およびメモリは500GBの実装となった。メモリは目標に及ばないものの、検出精度および検索時間は目標を達成できた。R5年度は、キーワードを音節または音素としてテキストで与え、そのキーワード列を疑似的なフレーム列に変換する方式を研究開発し、キーワードを方言音声で与えて音声同士を深層学習モデルに通したその特徴量で比較する方式に比べ、遠野方言においても高い検索精度が得られることを実証した。次年度の最終年度では、方言の理解支援システムについての設計および研究開発と、上述の当初目標をすべて達成すべく、高精度・高速・低容量の方言音声検索システムの構築の研究開発を並行して推進する。第2ステップの音声資源が殆どないゼロ資源音声に対しては、既に研究開発した方言音声の検索技術をゼロ資源音声への適用・応用を行う。現状では複数の外国語をゼロ資源音声言語と想定し実験・検証を行う。特定言語に依存しないモデルの構築を目指す。これにより言語非依存のゼロ資源音声に対する検索技術の実現を目指していく。

Report

(3 results)

Research Products
(12 results)

All 2024 2023 2022 2021

All Journal Article (1 results) (of which Peer Reviewed: 1 results) Presentation (11 results) (of which Int'l Joint Research: 4 results)

[Journal Article] Average Posterior Probability Vector Method for Spoken Query-spoken Term Detection2023
- Author(s)
  横田平志、小嶋和徳、李時旭、伊藤慶明
- Journal Title
  
  情報処理学会論文誌
  
  Volume: 64 Issue: 1 Pages: 236-246
- DOI
  10.20729/00223427
- ISSN
  1882-7764
- Year and Date
  2023-01-15
- Related Report
  2022 Research-status Report
- Peer Reviewed
[Presentation] 遠野方言音声理解のためのキーワードスポッティング方式の検討2024
- Author(s)
  有賀智広，小嶋和徳，李時旭，伊藤慶明
- Organizer
  情報処理学会第86回全国大会，4R-06
- Related Report
  2023 Research-status Report
[Presentation] Accurate and Practical Query-By-Example by Using Multiple Deep Learning Models and Frame Compression Methods2023
- Author(s)
  Hikaru Yamaga, Kazuki Hatakeyama, Kazunori Kojima, Shi-wook Lee and Yoshiaki Itoh
- Organizer
  Asia-Pacific Signal and Information Processing Association Annual Summit and Conference, APSIPA ASC
- Related Report
  2023 Research-status Report
- Int'l Joint Research
[Presentation] Ensemble of Transformer and Convolutional Recurrent Neural Network for Improving Discrimination Accuracy in Automatic Chord Recognition2023
- Author(s)
  Hikaru Yamaga, Monma, Kazunori Kojima and Yoshiaki Itoh
- Organizer
  Asia-Pacific Signal and Information Processing Association Annual Summit and Conference, APSIPA ASC
- Related Report
  2023 Research-status Report
- Int'l Joint Research
[Presentation] 音声中の音声検索語検出におけるアンサンブル学習モデルを用いた検索精度向上2023
- Author(s)
  山賀光，小嶋和徳，李時旭，伊藤慶明
- Organizer
  日本音響学会秋季研究発表会，2-Q-17
- Related Report
  2023 Research-status Report
[Presentation] 音声中の音声検索語検出におけるフレーム圧縮手法および複数の深層学習モデルのスコア統合による検索精度・検索速度・メモリ量の改善”2023
- Author(s)
  畠山和望，小嶋和徳，李時旭，伊藤慶明
- Organizer
  情報処理学会第85回全国大会
- Related Report
  2022 Research-status Report
[Presentation] 音声中の音声検索語検出における音声データの最尤および上位の状態系列の利用による検索精度向上2023
- Author(s)
  皆川玲緒，小嶋和徳，李時旭，伊藤慶明
- Organizer
  情報処理学会第85回全国大会
- Related Report
  2022 Research-status Report
[Presentation] rame-Level Matching Scheme Using Posteriorgram Probability Distance of Spoken Data to Improve Search Accuracy of Spoken Term Detection,2022
- Author(s)
  Reo Minakawa, Kazunori Kojima, Shi-wook Lee, Yoshiaki Itoh
- Organizer
  Asia-Pacific Signal and Information Processing Association Annual Summit and Conference
- Related Report
  2022 Research-status Report
- Int'l Joint Research
[Presentation] 楽曲ジャンル分類へのEfficientNetV2の適用2022
- Author(s)
  坂田大地，小嶋和徳，伊藤慶明
- Organizer
  情報処理学会第84回全国大会
- Related Report
  2021 Research-status Report
[Presentation] Multiple Deep Learning Models and Architectures with Different Numbers of States Used to Improve Retrieval Accuracy of Query-by-Example2021
- Author(s)
  Kazuki Hatakeyama, Masahiro Nishino, Kazunori Kojima, Shi-wook Lee, Yoshiaki Itoh
- Organizer
  Asia-Pacific Signal and Information Processing Association Annual Summit and Conference, APSIPA ASC
- Related Report
  2021 Research-status Report
- Int'l Joint Research
[Presentation] 異種・複数の深層学習モデルを用いた音声中の検索語検出方式の高精度・低メモリ化2021
- Author(s)
  西野将弘，伊藤慶明，小嶋和徳，李時旭
- Organizer
  日本音響学会春季研究発表会
- Related Report
  2021 Research-status Report
[Presentation] 音声中の検索語検出における検索精度向上のためのフレームレベル照合方式2021
- Author(s)
  皆川玲緒，小嶋和徳，伊藤慶明
- Organizer
  情報処理学会第84回全国大会
- Related Report
  2021 Research-status Report

ゼロ・少音声言語資源の音声処理技術の構築

Principal Investigator

伊藤 慶明 岩手県立大学, ソフトウェア情報学部, 教授 (90325928)

¥4,160,000 (Direct Cost: ¥3,200,000、Indirect Cost: ¥960,000)

Current Status of Research Progress

Reason

Report

Research Products

[Journal Article] Average Posterior Probability Vector Method for Spoken Query-spoken Term Detection2023

Author(s)

Journal Title

DOI

ISSN

Year and Date

Related Report

[Presentation] 遠野方言音声理解のためのキーワードスポッティング方式の検討2024

Author(s)

Organizer

Related Report

[Presentation] Accurate and Practical Query-By-Example by Using Multiple Deep Learning Models and Frame Compression Methods2023

Author(s)

Organizer

Related Report

[Presentation] Ensemble of Transformer and Convolutional Recurrent Neural Network for Improving Discrimination Accuracy in Automatic Chord Recognition2023

Author(s)

Organizer

Related Report

[Presentation] 音声中の音声検索語検出におけるアンサンブル学習モデルを用いた検索精度向上2023

Author(s)

Organizer

Related Report

[Presentation] 音声中の音声検索語検出におけるフレーム圧縮手法および複数の深層学習モデルのスコア統合による検索精度・検索速度・メモリ量の改善”2023

Author(s)

Organizer

Related Report

[Presentation] 音声中の音声検索語検出における音声データの最尤および上位の状態系列の利用による検索精度向上2023

Author(s)

Organizer

Related Report

[Presentation] rame-Level Matching Scheme Using Posteriorgram Probability Distance of Spoken Data to Improve Search Accuracy of Spoken Term Detection,2022

Author(s)

Organizer

Related Report

[Presentation] 楽曲ジャンル分類へのEfficientNetV2の適用2022

Author(s)

Organizer

Related Report

[Presentation] Multiple Deep Learning Models and Architectures with Different Numbers of States Used to Improve Retrieval Accuracy of Query-by-Example2021

Author(s)

Organizer

Related Report

[Presentation] 異種・複数の深層学習モデルを用いた音声中の検索語検出方式の高精度・低メモリ化2021

Author(s)

Organizer

Related Report

[Presentation] 音声中の検索語検出における検索精度向上のためのフレームレベル照合方式2021

Author(s)

Organizer

Related Report

伊藤慶明岩手県立大学, ソフトウェア情報学部, 教授 (90325928)