2021 年度実績報告書

教育現場における健聴者・聴覚障害者間の円滑な意思疎通を支援する音声言語基盤技術

研究課題

研究課題/領域番号	20H01716
研究機関	筑波技術大学
研究代表者	小林彰夫筑波技術大学, 産業技術学部, 准教授 (10741168)
研究分担者	北岡教英豊橋技術科学大学, 工学(系)研究科(研究院), 教授 (10333501) 西崎博光山梨大学, 大学院総合研究部, 教授 (40362082) 安啓一筑波技術大学, 産業技術学部, 講師 (70407352)
研究期間 (年度)	2020-04-01 – 2023-03-31
キーワード	聴覚障害者 / 音声認識 / 点訳 / 視覚障害者 / 盲ろう
研究実績の概要	本研究では，聴覚障害者の音声認識性能改善が主たる目的である．したがって，障害者からの音声データの収集およびコーパス作成が重要となる．しかしながら，前年度より引き続くCOVID-19による緊急事態宣言の影響により，対面による学生の音声収録は予定よりも遅れることとなった（当初予定40名のところ15名）．ただし，収録内容はATR音素バランス文503文を中心として，話者一人当たりおおむね600から700文章を収集した．年度後半より，収録参加者（学生）および実施責任者がオンラインコミュニケーションに習熟したことにより，数名に対してオンライン下での音声収録を試みた．圧縮音声およびPCM音声の両者を収録するシステムを構築し，次年度以降の効率的なデータ収集への対応を可能とした．一方，聴覚障害者の音声データの蓄積が進んだことにより，前年度に引き続きend-to-end音声認識による実験を通して，聴覚障害者に共通する音素レベルでの音声認識の誤り傾向の調査を行った．分析の結果，子音/z/, /ts/, /ch/等の一部の誤りについては，他の聴覚障害者の音声データを学習データに追加することにより，おおむね10%程度の誤り削減が可能であることがわかった．このことから，聴覚障害者の調音運動の特徴には一定の共通因子が存在し，十分な量のデータが集積されれば頑健な音声認識が可能だとの結論を得た．聴覚障害者の音声データ量は本年度の研究においても不十分であったことから，健聴者の音声を利用して，聴覚障害者向け音声認識で用いる際のニューラルネットワークの基本構造の検討を行った．本研究の開始以来，視覚・聴覚障害である盲ろう者に対する情報保障のニーズの高まりを受けたことから，対象を音声点訳としたうえでend-to-endアプローチ（conformer/transformer）による性能の調査を行った．
現在までの達成度 (区分)	現在までの達成度 (区分) 3: やや遅れている理由聴覚障害者音声の収集にあたって，当初目標は通期(2020，2021年度)において70名を完了させる予定であったが，32名（男子20名，女子12名）にとどまった．収録者数が予定の半数に届かなかったのは，おおむねCOVID-19流行における緊急事態宣言等の影響により対面での収録が進まなかったことが原因である．これに加えて，当初想定よりも学生発話の調音における曖昧性が大きく，特に読み上げにおいて正しく文章が読まれたかどうかの判断に時間を要したことも遅延の事由として挙げられる．また，聴覚障害者は朗読や音読といった機会に乏しく，音声収録にあたってはおおよそ聴者の3倍程度の時間がかかるなどした．聴覚障害者の発話の多様性は極めて大きいことから，調音の特徴については音韻論的には言及可能であるが，音声認識のような工学的なアプローチに対して信頼性のある知見を得るには，32名の音声では話者数が不足していることが明らかとなった．これは例えば，同一の読み上げ文に対して，文字誤り率が15%から70%超と，話者によって大きく認識性能が異なることが原因である．
今後の研究の推進方策	聴覚障害者音声の収集に関して，収集の速度を早めるためにオンラインでの音声収集システムを構築しつつある．これは実験参加者と実験責任者をリモート会議ソフトウェアで結び，実験参加者のノートパソコンを責任者がリモートで操作してPCM録音を行うシステムである．これにより，パソコン設置に関する簡単なインストラクションを聴覚障害者に与えることにより，遠隔であってもPCM録音した音声を収集することが可能となる．また，2022年度は多くの研究で使われている健聴者の音声コーパスを用いて健聴者の声質を変換し，擬似的に聴覚障害者音声を生成することによって学習データの拡大を行い，認識率の改善を図ることとしたい．

研究成果
(13件)

すべて 2022 2021

すべて雑誌論文 (6件) (うち査読あり 5件) 学会発表 (7件)

[雑誌論文] End-to-End Speech to Braille Translation in Japanese2022
- 著者名/発表者名
  Kobayashi Akio、Onishi Junji、Nishizaki Hiromitsu、Kitaoka Norihide
- 雑誌名
  
  2022 IEEE International Conference on Consumer Electronics (ICCE)
  
  巻: - ページ: -
- DOI
  10.1109/icce53296.2022.9730468
- 査読あり
[雑誌論文] Dynamic out-of-vocabulary word registration to language model for speech recognition2021
- 著者名/発表者名
  Kitaoka Norihide、Chen Bohan、Obashi Yuya
- 雑誌名
  
  EURASIP Journal on Audio, Speech, and Music Processing
  
  巻: - ページ: -
- DOI
  10.1186/s13636-020-00193-1
- 査読あり
[雑誌論文] Corpus Design and Automatic Speech Recognition for Deaf and Hard-of-Hearing People2021
- 著者名/発表者名
  Kobayashi Akio、Yasu Keiichi、Nishizaki Hiromitsu、Kitaoka Norihide
- 雑誌名
  
  2021 IEEE 10th Global Conference on Consumer Electronics (GCCE)
  
  巻: - ページ: -
- DOI
  10.1109/gcce53005.2021.9621959
- 査読あり
[雑誌論文] Advanced language model fusion method for encoder-decoder model in Japanese speech2021
- 著者名/発表者名
  Daiki Mori, Kengo Ohta, Ryota Nishimura, Atsunori Ogawa, Norihide Kitaoka
- 雑誌名
  
  Proc. APSIPA ASC 2021
  
  巻: - ページ: 503-510
- 査読あり
[雑誌論文] End-to-end spontaneous speech recognition using hesitation labeling2021
- 著者名/発表者名
  Koharu Horii, Meiko Fukuda, Kengo Ohta, Ryota Nishimura, Atsunori Ogawa, Norihide Kitaoka
- 雑誌名
  
  Proc. APSIPA ASC 2021
  
  巻: - ページ: 1077-1081
- 査読あり
[雑誌論文] ExKaldi-RT: A Real-Time Automatic Speech Recognition Extension Toolkit of Kaldi2021
- 著者名/発表者名
  Wang Yu、Leow Chee Siang、Kobayashi Akio、Utsuro Takehito、Nishizaki Hiromitsu
- 雑誌名
  
  Proceedings of the 2021 IEEE 10th Global Conference on Consumer Electronics (GCCE 2021)
  
  巻: - ページ: 346-350
- DOI
  10.1109/GCCE53005.2021.9621992
[学会発表] タスク外音響情報を付加したEnd-to-End音声認識モデルの設計2022
- 著者名/発表者名
  森大輝，太田健吾，西村良太，小川厚徳, 北岡教英
- 学会等名
  日本音響学会講演論文集
[学会発表] 非流暢ラベルを用いた言い淀み整形End-to-End音声認識2022
- 著者名/発表者名
  堀井こはる，福田芽衣子，太田健吾，西村良太，小川厚徳，北岡教英
- 学会等名
  日本音響学会講演論文集
[学会発表] 読み上げ文を対象としたEnd-to-End音声点訳2021
- 著者名/発表者名
  小林彰夫、大西淳児、西崎博光、北岡教英
- 学会等名
  日本音響学会講演論文集
[学会発表] Encoder-Decoder音声認識モデルにおける暗黙的言語情報の置換法2021
- 著者名/発表者名
  森大輝，太田健吾，西村良太，小川厚徳，北岡教英
- 学会等名
  日本音響学会講演論文集
[学会発表] 言い淀みを考慮した自由発話のEnd-to-End音声認識2021
- 著者名/発表者名
  堀井こはる，福田芽衣子，太田健吾，西村良太，北岡教英
- 学会等名
  日本音響学会講演論文集
[学会発表] End-to-end音声認識モデルにおける暗黙的言語情報の置換法2021
- 著者名/発表者名
  森大輝，太田健吾，西村良太，小川厚徳，北岡教英
- 学会等名
  音学シンポジウム,
[学会発表] Kaldiベースのストリーミング音声認識システムの開発2021
- 著者名/発表者名
  レオチーシャン，王宇，小林彰夫，宇津呂武仁，西崎博光
- 学会等名
  日本音響学会2021年秋季研究発表会講演論文集

2021 年度 実績報告書

教育現場における健聴者・聴覚障害者間の円滑な意思疎通を支援する音声言語基盤技術

研究代表者

小林 彰夫 筑波技術大学, 産業技術学部, 准教授 (10741168)

現在までの達成度 (区分)

理由

研究成果

[雑誌論文] End-to-End Speech to Braille Translation in Japanese2022

著者名/発表者名

雑誌名

DOI

[雑誌論文] Dynamic out-of-vocabulary word registration to language model for speech recognition2021

著者名/発表者名

雑誌名

DOI

[雑誌論文] Corpus Design and Automatic Speech Recognition for Deaf and Hard-of-Hearing People2021

著者名/発表者名

雑誌名

DOI

[雑誌論文] Advanced language model fusion method for encoder-decoder model in Japanese speech2021

著者名/発表者名

雑誌名

[雑誌論文] End-to-end spontaneous speech recognition using hesitation labeling2021

著者名/発表者名

雑誌名

[雑誌論文] ExKaldi-RT: A Real-Time Automatic Speech Recognition Extension Toolkit of Kaldi2021

著者名/発表者名

雑誌名

DOI

[学会発表] タスク外音響情報を付加したEnd-to-End音声認識モデルの設計2022

著者名/発表者名

学会等名

[学会発表] 非流暢ラベルを用いた言い淀み整形End-to-End音声認識2022

著者名/発表者名

学会等名

[学会発表] 読み上げ文を対象としたEnd-to-End音声点訳2021

著者名/発表者名

学会等名

[学会発表] Encoder-Decoder音声認識モデルにおける暗黙的言語情報の置換法2021

著者名/発表者名

学会等名

[学会発表] 言い淀みを考慮した自由発話のEnd-to-End音声認識2021

著者名/発表者名

学会等名

[学会発表] End-to-end音声認識モデルにおける暗黙的言語情報の置換法2021

著者名/発表者名

学会等名

[学会発表] Kaldiベースのストリーミング音声認識システムの開発2021

著者名/発表者名

学会等名

2021 年度実績報告書

小林彰夫筑波技術大学, 産業技術学部, 准教授 (10741168)