2021 Fiscal Year Research-status Report
Emergency speech detection robust for various speaker and noisy environment
Project/Area Number |
21K14381
|
Research Institution | Ritsumeikan University |
Principal Investigator |
福森 隆寛 立命館大学, 情報理工学部, 講師 (60755817)
|
Project Period (FY) |
2021-04-01 – 2024-03-31
|
Keywords | 危機的音声 / 発声者 / 雑音 |
Outline of Annual Research Achievements |
本研究では,音に基づく防犯・生活見守りシステムの基盤技術として,発声者や雑音環境の変化に頑健な危機的音声の検出手法を構築する.そのために,人の叫びに関する生体学的知見と最新の深層学習技術を融合展開する.はじめに,雑音のないクリーンな音声を対象に,音声の多角的観点から平静・危機を分類する深層学習アーキテクチャを設計する.これにより,様々な人に共通して存在する,危機的音声という特定ドメインの音響構造を明らかにする.次に,提案アーキテクチャを多様な収録環境に適用可能とするために,雑音環境下の音声からクリーン音声への分布変換に基づく外乱除去機構を導入する.最後に,音声の聴取実験結果に基づき叫び声の感情カテゴリを設計する.提案手法を笑い声・歓声と怒号・悲鳴・泣き声の詳細識別へと拡張することで,危機的状況のみを検出するシステムの基盤技術を構築する. 2021年度では危機的音声の特徴を解明するために以下に取り組んだ.まず,危機的音声コーパスを構築するために立命館大学の学生から平静音声と危機的音声を大量収集した.具体的には,危機的音声を発すると予想される言葉をリスト化し,各台詞について平静・危機状態を発声者に演じ分けてもらった.次に,音声の多角的表現(時間領域,周波数領域,ケプストラム領域)に基づき,入力音声を平静・危機に分類する深層アーキテクチャを構築した.構築したコーパスを用いた評価実験により,単一の特徴空間と比べた場合の有効性と,異なる発声者への頑健性を実証した.
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
当該年度の研究項目である「危機的音声コーパスの構築」と「音声の多角的表現に基づく深層学習」をほぼ当初の予定通りに進められた.
|
Strategy for Future Research Activity |
今後は「(1)外乱を含む音声コーパスへの拡張」と「(2)提案アーキテクチャに対する外乱除去機構の導入」を中心に研究を推進する計画である. (1)は室内,住宅街,道路,繁華街に存在する外乱の時間・周波数特性を準備する.得られた外乱を今年度収集したクリーン音声に重畳することで,外乱のバリエーション豊富なコーパスを構築する. (2)はクリーン音声と外乱が重畳された音声の双方でスペクトログラム(時間・周波数情報)の分布を学習し,雑音環境下で入力された音声をクリーン音声の分布へ変換する機構を設計する.構築した機構を今年度設計した深層学習アーキテクチャに導入し,外乱の有無や外乱除去の有無など様々な条件設定の下で性能比較する.提案機構が危機的音声の検出に影響を与えてしまうなど,うまくいかない場合は今年度のアーキテクチャ設計にフィードバックし,インタラクティブに手法を改良する.
|
Causes of Carryover |
今年度は主に新型コロナウィルス感染拡大の影響を受けて全ての学会をオンラインで参加したため,現地参加を見込んで計上していた旅費を使用しなかった.次年度は出張に関する制限が緩和されれば,当初予定していなかった学会等にも積極的に参加・発表して資料収集や研究者交流を進める計画である.
|
Remarks |
立命館大学研究活動報 RADIANT http://www.ritsumei.ac.jp/research/radiant/sound/story2.html/
|
Research Products
(6 results)