• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2022 Fiscal Year Research-status Report

Emergency speech detection robust for various speaker and noisy environment

Research Project

Project/Area Number 21K14381
Research InstitutionRitsumeikan University

Principal Investigator

福森 隆寛  立命館大学, 情報理工学部, 講師 (60755817)

Project Period (FY) 2021-04-01 – 2024-03-31
Keywords危機的音声 / 発声者 / 雑音 / 音声コーパス
Outline of Annual Research Achievements

近年,安全な暮らしの実現が求められる中で,犯罪の予防や災害時の円滑な救助活動のために音情報を用いた監視システムが注目されている.本研究では,音に基づく防犯・生活見守りシステムの基盤技術として,発声者や雑音環境の変化に頑健な危機的音声の検出手法を構築する.
2022年度は雑音環境の変化に頑健な危機的音声の検出に取り組んだ.まず2021年度に構築した音声コーパス(多数の平静音声と叫び声を収録)に対して白色雑音や空調騒音などの雑音を加えてバリエーション豊富な雑音環境を再現した.雑音を付加した平静音声と叫び声に対してスペクトログラム(時間・周波数情報)とケプストログラム(時間・ケプストラム情報)の分布を学習し,叫び声に関する特徴量を抽出する深層学習アーキテクチャを設計した.評価実験により,雑音の種類や量に関係なく叫び声を検出できることを確認した.
今年度は発声者の変化に注目した新たな叫び声認識アルゴリズムも開発した.叫び声は発声者によってその強度や発声方法が大きく異なる.そこで,話者の発声に関わる情報を組み込みながら,単に音声から叫びを検出するだけでなく,その強度も推定するアルゴリズムを開発した.まずクラウドソーシングサービスを利用した聴取実験を通して,昨年度に収録した2,500個の叫び声に強度スコアを付与した.叫びの強度は1(全く叫び声ではない)から 7(非常に叫び声らしい)の7段階で評価されており,1個の叫び声に対して10名が評価した.この実験で得られた叫び声の強度スコアを分析した結果,全体的に女性よりも男性の方が強く叫ぶ傾向にあることを確認した.この知見をもとに発話音声と話者情報(性別情報)を使って強度スコアを推定する深層学習アーキテクチャを構築した.今回提案した推定モデルを評価した結果,発話音声だけでなく話者情報も利用することで叫びの強度の推定精度が向上した.

Current Status of Research Progress
Current Status of Research Progress

2: Research has progressed on the whole more than it was originally planned.

Reason

当該年度の研究項目である「雑音環境の変化にロバストな機構の確立」をほぼ予定通りに進められた.本年度の研究成果は既にまとまっており,次年度の学会や産学連携イベントにて詳細を外部発表する予定である.

Strategy for Future Research Activity

2023年度では叫び声の詳細カテゴリ分類による危機的音声の検出の高度化を推進する計画である.人は危険な状況に遭遇したときに「助けてー」,喜びを爆発させるときに「やったー」などと叫ぶことがあり,叫び声を一括りに危機的音声として分類できない.そこで本研究では叫び声を詳細なカテゴリに分類し,危機的状況で叫ばれた音声だけを取り出す研究に取り組む.具体的には,まず過年度の研究成果をもとに音声の音響情報から平静音声と叫び声を分類し,さらに叫びの強度も推定する.そして強く叫ばれた音声が検出された場合,その音声の言語情報(発話文)から話者が叫んだ状況を推定する.

Causes of Carryover

2022年度は新型コロナウィルス感染拡大の影響を受けて学会等のイベントがオンライン開催されることが多く,現地参加を見込んで計上していた旅費を使用しなかった.2023年度は全国的に移動制限が緩和される見込みであるため,当初予定していなかった学会等にも積極的に参加・発表して資料収集や研究者交流を進める計画である.

  • Research Products

    (3 results)

All 2022

All Presentation (2 results) Patent(Industrial Property Rights) (1 results)

  • [Presentation] 話者情報を利用したマルチタスク学習に基づく叫び声の強度推定2022

    • Author(s)
      石田 泰都, 福森 隆寛, 山下 洋一
    • Organizer
      日本音響学会2022年秋季研究発表会
  • [Presentation] 音声認識とのマルチタスク学習を用いたCTCモデルに基づく短区間音声感情認識2022

    • Author(s)
      永瀬 亮太郎, 福森 隆寛, 山下 洋一
    • Organizer
      日本音響学会2022年秋季研究発表会
  • [Patent(Industrial Property Rights)] 叫び声検知システム、音声分類方法、及び、音声分類モデルの生成方法2022

    • Inventor(s)
      福森隆寛
    • Industrial Property Rights Holder
      学校法人立命館
    • Industrial Property Rights Type
      特許
    • Industrial Property Number
      2022-187934

URL: 

Published: 2023-12-25  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi