研究課題/領域番号 |
21K14381
|
研究機関 | 立命館大学 |
研究代表者 |
福森 隆寛 立命館大学, 情報理工学部, 講師 (60755817)
|
研究期間 (年度) |
2021-04-01 – 2024-03-31
|
キーワード | 危機的音声 / 発声者 / 雑音 / 音声コーパス |
研究実績の概要 |
近年,安全な暮らしの実現が求められる中で,犯罪の予防や災害時の円滑な救助活動のために音情報を用いた監視システムが注目されている.本研究では,音に基づく防犯・生活見守りシステムの基盤技術として,発声者や雑音環境の変化に頑健な危機的音声の検出手法を構築する. 2022年度は雑音環境の変化に頑健な危機的音声の検出に取り組んだ.まず2021年度に構築した音声コーパス(多数の平静音声と叫び声を収録)に対して白色雑音や空調騒音などの雑音を加えてバリエーション豊富な雑音環境を再現した.雑音を付加した平静音声と叫び声に対してスペクトログラム(時間・周波数情報)とケプストログラム(時間・ケプストラム情報)の分布を学習し,叫び声に関する特徴量を抽出する深層学習アーキテクチャを設計した.評価実験により,雑音の種類や量に関係なく叫び声を検出できることを確認した. 今年度は発声者の変化に注目した新たな叫び声認識アルゴリズムも開発した.叫び声は発声者によってその強度や発声方法が大きく異なる.そこで,話者の発声に関わる情報を組み込みながら,単に音声から叫びを検出するだけでなく,その強度も推定するアルゴリズムを開発した.まずクラウドソーシングサービスを利用した聴取実験を通して,昨年度に収録した2,500個の叫び声に強度スコアを付与した.叫びの強度は1(全く叫び声ではない)から 7(非常に叫び声らしい)の7段階で評価されており,1個の叫び声に対して10名が評価した.この実験で得られた叫び声の強度スコアを分析した結果,全体的に女性よりも男性の方が強く叫ぶ傾向にあることを確認した.この知見をもとに発話音声と話者情報(性別情報)を使って強度スコアを推定する深層学習アーキテクチャを構築した.今回提案した推定モデルを評価した結果,発話音声だけでなく話者情報も利用することで叫びの強度の推定精度が向上した.
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
当該年度の研究項目である「雑音環境の変化にロバストな機構の確立」をほぼ予定通りに進められた.本年度の研究成果は既にまとまっており,次年度の学会や産学連携イベントにて詳細を外部発表する予定である.
|
今後の研究の推進方策 |
2023年度では叫び声の詳細カテゴリ分類による危機的音声の検出の高度化を推進する計画である.人は危険な状況に遭遇したときに「助けてー」,喜びを爆発させるときに「やったー」などと叫ぶことがあり,叫び声を一括りに危機的音声として分類できない.そこで本研究では叫び声を詳細なカテゴリに分類し,危機的状況で叫ばれた音声だけを取り出す研究に取り組む.具体的には,まず過年度の研究成果をもとに音声の音響情報から平静音声と叫び声を分類し,さらに叫びの強度も推定する.そして強く叫ばれた音声が検出された場合,その音声の言語情報(発話文)から話者が叫んだ状況を推定する.
|
次年度使用額が生じた理由 |
2022年度は新型コロナウィルス感染拡大の影響を受けて学会等のイベントがオンライン開催されることが多く,現地参加を見込んで計上していた旅費を使用しなかった.2023年度は全国的に移動制限が緩和される見込みであるため,当初予定していなかった学会等にも積極的に参加・発表して資料収集や研究者交流を進める計画である.
|