Emergency speech detection robust for various speaker and noisy environment

Research Project

Project/Area Number	21K14381
Research Category	Grant-in-Aid for Early-Career Scientists
Allocation Type	Multi-year Fund
Review Section	Basic Section 25020:Safety engineering-related
Research Institution	Ritsumeikan University
Principal Investigator	福森隆寛立命館大学, 情報理工学部, 講師 (60755817)
Project Period (FY)	2021-04-01 – 2025-03-31
Project Status	Granted (Fiscal Year 2023)
Budget Amount *help	¥4,550,000 (Direct Cost: ¥3,500,000、Indirect Cost: ¥1,050,000) Fiscal Year 2023: ¥1,430,000 (Direct Cost: ¥1,100,000、Indirect Cost: ¥330,000) Fiscal Year 2022: ¥520,000 (Direct Cost: ¥400,000、Indirect Cost: ¥120,000) Fiscal Year 2021: ¥2,600,000 (Direct Cost: ¥2,000,000、Indirect Cost: ¥600,000)
Keywords	叫び声 / 強度推定 / 話者情報 / 危機的音声 / 発声者 / 雑音 / 音声コーパス
Outline of Research at the Start	生活様式の多様化や少子高齢化に伴い，安全な暮らしの創生は喫緊の課題であり，事故や犯罪の予防に資するAIの技術開発が重要となっている．本研究では，視覚情報によらない監視システムの基盤技術として，発声者や雑音環境の変化に頑健な危機的音声の検出手法を構築する．具体的には，様々な雑音環境において多数の話者が発話した平静音声と叫び声のコーパスを作成し，この音声コーパスに基づいて話者の発話状態を平静と危機に分類する深層学習アーキテクチャを設計する．さらに，この分類アーキテクチャを高度化させるために，叫び声を笑い声・歓声・怒号・悲鳴などに細分化し，叫び声集合から危機的状況のみを検出することに挑戦する．
Outline of Annual Research Achievements	不審な状況や危険な状況を早期に検知することは，効率的な救助活動のために不可欠である．本研究では，多くの音声監視システムに関わる基本的なタスクである叫び声の検出に注目している．従来研究の多くは，叫び声検出の問題を平静音声と叫び声の二値分類として扱っていた．音声を利用した防犯システムを運用する上では，叫び声の中でも特に強く叫んだ音声を優先的に検出する必要があるため，叫び声検出の問題は単なる二値分類ではなく強度推定として取り扱うことが重要である．我々は，過年度において叫び声とその強度を記録した音声データセットを作成し，それらを使って叫び声の強度を推定するモデルを構築した．さらに，これらの叫び声を詳細に分析した結果，叫び声の強度が話者間で異なることを明らかにした．そして身体的な性別情報をモデル学習に利用することで強度の推定精度が改善することも予備実験にて確認した． 2023年度では更なる推定精度の向上を目指して，性別以外の話者情報を利用した推定手法を検討した．音声研究の最新動向として，話者識別モデルの内部で利用される特徴が，音声感情分類などの他の音声処理タスクの性能改善に寄与する結果が多数報告されている．この話者識別モデルは，可変長の音声信号を，話者固有の特徴を表現した固定長ベクトルに変換する．そこで本研究においても，話者識別に用いられるこの特徴ベクトルを叫び声の強度推定に導入した．具体的には事前訓練された話者識別モデルによって生成されたベクトル表現であるx-vectorと，従来の叫び声検出に利用していた音声特徴量の両方を用いて強度推定モデルを再構築した．評価実験の結果，話者情報を利用することで，音声特徴のみを利用した場合と比較して推定性能が向上することが示された．また話者情報の中でもx-vectorを用いると性別情報よりも推定精度が改善することも確認できた．
Current Status of Research Progress	Current Status of Research Progress 3: Progress in research has been slightly delayed. Reason 今年度は危機的状況で叫ばれた音声を検出することを目標に研究を進めてきた．今年度の研究活動において強く叫んでいる音声を従来よりも精度高く検出できたものの，叫ばれた場面の危険性の推定精度は不十分であり，提案手法のさらなる改良が必要である．
Strategy for Future Research Activity	提案手法の高精度化に向けて叫び声から感じられる危険度を推定する研究に取り組む．叫び声はスポーツ観戦やコンサートのような危険な状況以外でも発せられる．これまでに構築したデータセットには，各音声に対して叫びの強度（叫び声らしさ）のみが付与されており，音声から感じられる危険度は付与されていなかった．そこで2024年度では大規模聴取実験を通して叫び声から感じられる危険度を点数化し，その情報を各音声に付与することで叫び声データセットを拡充する．そして，このデータセットを使って叫び声から危険度を予測するモデル構築にも取り組む計画である．

Report

(3 results)

Research Products
(10 results)

All 2023 2022 2021

All Presentation (9 results) (of which Int'l Joint Research: 2 results) Patent(Industrial Property Rights) (1 results)

[Presentation] Investigating the Effectiveness of Speaker Embeddings for Shout Intensity Prediction2023
- Author(s)
  Takahiro Fukumori, Taito Ishida, and Yoichi Yamashita
- Organizer
  Asia-Pacific Signal and Information Processing Association Annual Summit and Conference
- Related Report
  2023 Research-status Report
- Int'l Joint Research
[Presentation] 話者情報を利用したマルチタスク学習に基づく叫び声の強度推定2022
- Author(s)
  石田泰都, 福森隆寛, 山下洋一
- Organizer
  日本音響学会2022年秋季研究発表会
- Related Report
  2022 Research-status Report
[Presentation] 音声認識とのマルチタスク学習を用いたCTCモデルに基づく短区間音声感情認識2022
- Author(s)
  永瀬亮太郎, 福森隆寛, 山下洋一
- Organizer
  日本音響学会2022年秋季研究発表会
- Related Report
  2022 Research-status Report
[Presentation] クリッピング音声に対する叫び声検知の検討2022
- Author(s)
  石田泰都, 松田和浩, 福森隆寛, 山下洋一
- Organizer
  電子情報通信学会技術研究報告
- Related Report
  2021 Research-status Report
[Presentation] クリッピング音声に対する深層学習を用いた叫び声検知2022
- Author(s)
  石田泰都, 松田和浩, 福森隆寛, 山下洋一
- Organizer
  日本音響学会2022年春季研究発表会
- Related Report
  2021 Research-status Report
[Presentation] RISC：危機的強度を有する叫び声コーパスの構築2022
- Author(s)
  福森隆寛, 三久保昭宏, 石田泰都, 山下洋一
- Organizer
  日本音響学会2022年春季研究発表会
- Related Report
  2021 Research-status Report
[Presentation] Deep Spectral-Cepstral Fusion for Shouted and Normal Speech Classification2021
- Author(s)
  Takahiro Fukumori
- Organizer
  The 22nd Annual Conference of the International Speech Communication Association (INTERSPEECH)
- Related Report
  2021 Research-status Report
- Int'l Joint Research
[Presentation] スペクトルとケプストラムの時系列特徴を用いた深層学習による悲鳴検知2021
- Author(s)
  福森隆寛
- Organizer
  音学シンポジウム2021
- Related Report
  2021 Research-status Report
[Presentation] 畳み込みオートエンコーダを用いた外れ値検出による叫び声検知2021
- Author(s)
  石田泰都, 福森隆寛, 山下洋一
- Organizer
  日本音響学会2021年秋季研究発表会
- Related Report
  2021 Research-status Report
[Patent(Industrial Property Rights)] 叫び声検知システム、音声分類方法、及び、音声分類モデルの生成方法2022
- Inventor(s)
  福森隆寛
- Industrial Property Rights Holder
  学校法人立命館
- Industrial Property Rights Type
  特許
- Filing Date
  2022
- Related Report
  2022 Research-status Report

Emergency speech detection robust for various speaker and noisy environment

Principal Investigator

福森 隆寛 立命館大学, 情報理工学部, 講師 (60755817)

¥4,550,000 (Direct Cost: ¥3,500,000、Indirect Cost: ¥1,050,000)

Current Status of Research Progress

Reason

Report

Research Products

[Presentation] Investigating the Effectiveness of Speaker Embeddings for Shout Intensity Prediction2023

Author(s)

Organizer

Related Report

[Presentation] 話者情報を利用したマルチタスク学習に基づく叫び声の強度推定2022

Author(s)

Organizer

Related Report

[Presentation] 音声認識とのマルチタスク学習を用いたCTCモデルに基づく短区間音声感情認識2022

Author(s)

Organizer

Related Report

[Presentation] クリッピング音声に対する叫び声検知の検討2022

Author(s)

Organizer

Related Report

[Presentation] クリッピング音声に対する深層学習を用いた叫び声検知2022

Author(s)

Organizer

Related Report

[Presentation] RISC：危機的強度を有する叫び声コーパスの構築2022

Author(s)

Organizer

Related Report

[Presentation] Deep Spectral-Cepstral Fusion for Shouted and Normal Speech Classification2021

Author(s)

Organizer

Related Report

[Presentation] スペクトルとケプストラムの時系列特徴を用いた深層学習による悲鳴検知2021

Author(s)

Organizer

Related Report

[Presentation] 畳み込みオートエンコーダを用いた外れ値検出による叫び声検知2021

Author(s)

Organizer

Related Report

[Patent(Industrial Property Rights)] 叫び声検知システム、音声分類方法、及び、音声分類モデルの生成方法2022

Inventor(s)

Industrial Property Rights Holder

Industrial Property Rights Type

Filing Date

Related Report

福森隆寛立命館大学, 情報理工学部, 講師 (60755817)