• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2021 Fiscal Year Annual Research Report

Infrastructural spoken language technology to support smooth communication with hearing-impaired people in education

Research Project

Project/Area Number 20H01716
Research InstitutionTsukuba University of Technology

Principal Investigator

小林 彰夫  筑波技術大学, 産業技術学部, 准教授 (10741168)

Co-Investigator(Kenkyū-buntansha) 北岡 教英  豊橋技術科学大学, 工学(系)研究科(研究院), 教授 (10333501)
西崎 博光  山梨大学, 大学院総合研究部, 教授 (40362082)
安 啓一  筑波技術大学, 産業技術学部, 講師 (70407352)
Project Period (FY) 2020-04-01 – 2023-03-31
Keywords聴覚障害者 / 音声認識 / 点訳 / 視覚障害者 / 盲ろう
Outline of Annual Research Achievements

本研究では,聴覚障害者の音声認識性能改善が主たる目的である.したがって,障害者からの音声データの収集およびコーパス作成が重要となる.
しかしながら,前年度より引き続くCOVID-19による緊急事態宣言の影響により,対面による学生の音声収録は予定よりも遅れることとなった(当初予定40名のところ15名).ただし,収録内容はATR音素バランス文503文を中心として,話者一人当たりおおむね600から700文章を収集した.
年度後半より,収録参加者(学生)および実施責任者がオンラインコミュニケーションに習熟したことにより,数名に対してオンライン下での音声収録を試みた.圧縮音声およびPCM音声の両者を収録するシステムを構築し,次年度以降の効率的なデータ収集への対応を可能とした.
一方,聴覚障害者の音声データの蓄積が進んだことにより,前年度に引き続きend-to-end音声認識による実験を通して,聴覚障害者に共通する音素レベルでの音声認識の誤り傾向の調査を行った.分析の結果,子音/z/, /ts/, /ch/等の一部の誤りについては,他の聴覚障害者の音声データを学習データに追加することにより,おおむね10%程度の誤り削減が可能であることがわかった.このことから,聴覚障害者の調音運動の特徴には一定の共通因子が存在し,十分な量のデータが集積されれば頑健な音声認識が可能だとの結論を得た.
聴覚障害者の音声データ量は本年度の研究においても不十分であったことから,健聴者の音声を利用して,聴覚障害者向け音声認識で用いる際のニューラルネットワークの基本構造の検討を行った.本研究の開始以来,視覚・聴覚障害である盲ろう者に対する情報保障のニーズの高まりを受けたことから,対象を音声点訳としたうえでend-to-endアプローチ(conformer/transformer)による性能の調査を行った.

Current Status of Research Progress
Current Status of Research Progress

3: Progress in research has been slightly delayed.

Reason

聴覚障害者音声の収集にあたって,当初目標は通期(2020,2021年度)において70名を完了させる予定であったが,32名(男子20名,女子12名)にとどまった.収録者数が予定の半数に届かなかったのは,おおむねCOVID-19流行における緊急事態宣言等の影響により対面での収録が進まなかったことが原因である.これに加えて,当初想定よりも学生発話の調音における曖昧性が大きく,特に読み上げにおいて正しく文章が読まれたかどうかの判断に時間を要したことも遅延の事由として挙げられる.また,聴覚障害者は朗読や音読といった機会に乏しく,音声収録にあたってはおおよそ聴者の3倍程度の時間がかかるなどした.聴覚障害者の発話の多様性は極めて大きいことから,調音の特徴については音韻論的には言及可能であるが,音声認識のような工学的なアプローチに対して信頼性のある知見を得るには,32名の音声では話者数が不足していることが明らかとなった.これは例えば,同一の読み上げ文に対して,文字誤り率が15%から70%超と,話者によって大きく認識性能が異なることが原因である.

Strategy for Future Research Activity

聴覚障害者音声の収集に関して,収集の速度を早めるためにオンラインでの音声収集システムを構築しつつある.これは実験参加者と実験責任者をリモート会議ソフトウェアで結び,実験参加者のノートパソコンを責任者がリモートで操作してPCM録音を行うシステムである.これにより,パソコン設置に関する簡単なインストラクションを聴覚障害者に与えることにより,遠隔であってもPCM録音した音声を収集することが可能となる.また,2022年度は多くの研究で使われている健聴者の音声コーパスを用いて健聴者の声質を変換し,擬似的に聴覚障害者音声を生成することによって学習データの拡大を行い,認識率の改善を図ることとしたい.

  • Research Products

    (13 results)

All 2022 2021

All Journal Article (6 results) (of which Peer Reviewed: 5 results) Presentation (7 results)

  • [Journal Article] End-to-End Speech to Braille Translation in Japanese2022

    • Author(s)
      Kobayashi Akio、Onishi Junji、Nishizaki Hiromitsu、Kitaoka Norihide
    • Journal Title

      2022 IEEE International Conference on Consumer Electronics (ICCE)

      Volume: - Pages: -

    • DOI

      10.1109/icce53296.2022.9730468

    • Peer Reviewed
  • [Journal Article] Dynamic out-of-vocabulary word registration to language model for speech recognition2021

    • Author(s)
      Kitaoka Norihide、Chen Bohan、Obashi Yuya
    • Journal Title

      EURASIP Journal on Audio, Speech, and Music Processing

      Volume: - Pages: -

    • DOI

      10.1186/s13636-020-00193-1

    • Peer Reviewed
  • [Journal Article] Corpus Design and Automatic Speech Recognition for Deaf and Hard-of-Hearing People2021

    • Author(s)
      Kobayashi Akio、Yasu Keiichi、Nishizaki Hiromitsu、Kitaoka Norihide
    • Journal Title

      2021 IEEE 10th Global Conference on Consumer Electronics (GCCE)

      Volume: - Pages: -

    • DOI

      10.1109/gcce53005.2021.9621959

    • Peer Reviewed
  • [Journal Article] Advanced language model fusion method for encoder-decoder model in Japanese speech2021

    • Author(s)
      Daiki Mori, Kengo Ohta, Ryota Nishimura, Atsunori Ogawa, Norihide Kitaoka
    • Journal Title

      Proc. APSIPA ASC 2021

      Volume: - Pages: 503-510

    • Peer Reviewed
  • [Journal Article] End-to-end spontaneous speech recognition using hesitation labeling2021

    • Author(s)
      Koharu Horii, Meiko Fukuda, Kengo Ohta, Ryota Nishimura, Atsunori Ogawa, Norihide Kitaoka
    • Journal Title

      Proc. APSIPA ASC 2021

      Volume: - Pages: 1077-1081

    • Peer Reviewed
  • [Journal Article] ExKaldi-RT: A Real-Time Automatic Speech Recognition Extension Toolkit of Kaldi2021

    • Author(s)
      Wang Yu、Leow Chee Siang、Kobayashi Akio、Utsuro Takehito、Nishizaki Hiromitsu
    • Journal Title

      Proceedings of the 2021 IEEE 10th Global Conference on Consumer Electronics (GCCE 2021)

      Volume: - Pages: 346-350

    • DOI

      10.1109/GCCE53005.2021.9621992

  • [Presentation] タスク外音響情報を付加したEnd-to-End音声認識モデルの設計2022

    • Author(s)
      森 大輝,太田 健吾,西村 良太,小川厚徳, 北岡 教英
    • Organizer
      日本音響学会講演論文集
  • [Presentation] 非流暢ラベルを用いた言い淀み整形End-to-End音声認識2022

    • Author(s)
      堀井 こはる,福田 芽衣子,太田 健吾,西村 良太,小川厚徳,北岡 教英
    • Organizer
      日本音響学会講演論文集
  • [Presentation] 読み上げ文を対象としたEnd-to-End音声点訳2021

    • Author(s)
      小林 彰夫、大西 淳児、西崎 博光、北岡 教英
    • Organizer
      日本音響学会講演論文集
  • [Presentation] Encoder-Decoder音声認識モデルにおける暗黙的言語情報の置換法2021

    • Author(s)
      森 大輝,太田 健吾,西村 良太,小川 厚徳,北岡 教英
    • Organizer
      日本音響学会講演論文集
  • [Presentation] 言い淀みを考慮した自由発話のEnd-to-End音声認識2021

    • Author(s)
      堀井 こはる,福田 芽衣子,太田 健吾,西村 良太,北岡 教英
    • Organizer
      日本音響学会講演論文集
  • [Presentation] End-to-end音声認識モデルにおける暗黙的言語情報の置換法2021

    • Author(s)
      森大輝,太田健吾,西村良太,小川厚徳,北岡教英
    • Organizer
      音学シンポジウム,
  • [Presentation] Kaldiベースのストリーミング音声認識システムの開発2021

    • Author(s)
      レオ チーシャン,王 宇,小林彰夫,宇津呂武仁,西崎博光
    • Organizer
      日本音響学会2021年秋季研究発表会講演論文集

URL: 

Published: 2023-12-25  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi