2020 Fiscal Year Annual Research Report
Infrastructural spoken language technology to support smooth communication with hearing-impaired people in education
Project/Area Number |
20H01716
|
Research Institution | Tsukuba University of Technology |
Principal Investigator |
小林 彰夫 筑波技術大学, 産業技術学部, 准教授 (10741168)
|
Co-Investigator(Kenkyū-buntansha) |
北岡 教英 豊橋技術科学大学, 工学(系)研究科(研究院), 教授 (10333501)
西崎 博光 山梨大学, 大学院総合研究部, 准教授 (40362082)
安 啓一 筑波技術大学, 産業技術学部, 講師 (70407352)
|
Project Period (FY) |
2020-04-01 – 2023-03-31
|
Keywords | 聴覚障害者 / 音声認識 / 音声コーパス |
Outline of Annual Research Achievements |
本研究では,聴覚障害者の音声認識性能改善が主たる目的であることから,令和2年度(当該年度)より障害者音声データの収集およびコーパス作成を開始した. 一方で2020年初頭からのCOVID-19の流行により,緊急事態宣言が度重なって発令されることとなり,対面による学生の音声収録は予定よりも大幅に遅れることとなった(当初予定15名の収録は繰越により達成).音声の収録にあたっては,研究代表者の所属する大学内の無響室の利用が困難となったため,防音パーティションを利用した簡易的な設備を用意したうえで,可能な限りクリーンな音声が収録できるように計画を変更した.聴覚障害者の音声データの蓄積(12名)がある程度進んだ段階で,既存のend-to-endアプローチ(ESPNetによるCTCと注意機構を併用した手法)に基づく音声認識実験を行った.その結果,障害者によって認識率に大きな差が生じることがわかった.健聴者のみの音声コーパスから学習したモデルを使用した場合,音素誤り率は15.7%から71.6%(平均37.9%)となり,健聴者の誤り率(およそ誤り率10%)と遜色のない障害者がいる一方で,ほとんどの音声を認識できない障害者がいることが明らかとなった.また,収集した聴覚障害者音声を加えて聴者モデルに対する追加学習を行った場合,音素誤り率は11.0%から55.6%(平均29.7%)となり21.6%の誤りが削減された.対象となる障害者が少ないため,詳細な分析は次年度以降の研究課題とするが,聴覚障害者の音声データをより多く収集できれば,頑健な音声認識の実現が行えるとの知見を得た.
|
Current Status of Research Progress |
Current Status of Research Progress
3: Progress in research has been slightly delayed.
Reason
聴覚障害者音声の収集にあたって,当初目標は通期(2020年度)において30名を完了させる予定であったが15名にとどまった.収録者数が予定の半数に届かなかったのは,COVID-19流行における緊急事態宣言等の影響により対面での収録が進まなかったことが原因である.加えて当初予定していた研究代表者の所属する無響室の利用が困難となったため,収録計画を大幅に変更することとなった.また,教室など大体箇所での収録では残響の影響が見込まれるため,室内の反射音を抑えるために簡易的な防音パーティションを用意するなどの対策に時間を要した.
|
Strategy for Future Research Activity |
本研究の成否は,多様かつ大量の聴覚障害者の音声コーパスの構築が鍵を握る.そこで,音声収集を効率的に行うため,既存のオンライン会議ソフトウェアを用いたオンライン音声収録を試みる.収録参加者(学生)および収録担当者(研究者)とをオンラインで接続し音声収録システムを構築する.収録参加者側のコンピュータにマイクロホンを接続し,ローカルコンピュータ上でPCMによる高品質な音声収録を行うとともに,オンライン環境で読み上げ文の提示と収録の指示を行い,かつ圧縮音声をも収録するシステムとして,次年度以降の効率的なデータ収集への対応を可能としたい.
|
Research Products
(10 results)