研究課題/領域番号 |
20H01716
|
研究種目 |
基盤研究(B)
|
配分区分 | 補助金 |
応募区分 | 一般 |
審査区分 |
小区分09070:教育工学関連
|
研究機関 | 筑波技術大学 |
研究代表者 |
小林 彰夫 筑波技術大学, 産業技術学部, 准教授 (10741168)
|
研究分担者 |
北岡 教英 豊橋技術科学大学, 工学(系)研究科(研究院), 教授 (10333501)
西崎 博光 山梨大学, 大学院総合研究部, 准教授 (40362082)
安 啓一 筑波技術大学, 産業技術学部, 講師 (70407352)
|
研究期間 (年度) |
2020-04-01 – 2023-03-31
|
研究課題ステータス |
交付 (2022年度)
|
配分額 *注記 |
18,070千円 (直接経費: 13,900千円、間接経費: 4,170千円)
2022年度: 4,290千円 (直接経費: 3,300千円、間接経費: 990千円)
2021年度: 4,030千円 (直接経費: 3,100千円、間接経費: 930千円)
2020年度: 9,750千円 (直接経費: 7,500千円、間接経費: 2,250千円)
|
キーワード | 音声認識 / 聴覚障害 / ニューラルネットワーク / データ拡大法 / 音声言語処理 / 聴覚障害者 / 点訳 / 視覚障害者 / 盲ろう / 敵対的生成ネットワーク / 音声コーパス / 情報保障 |
研究開始時の研究の概要 |
健聴者(聞こえる人)と聴覚障害者とのコミュニケーションでは、筆談や手話通訳が使われるが、いずれも円滑な意思疎通が行えていない。そこで、健聴者と障害者双方にとって円滑な意思疎通を実現する、音声言語基盤技術(コミュニケーションブリッジ)を研究する。本研究では次の5つの研究項目を実施する。1)聴覚障害者音声の収集、2)健聴者と聴覚障害者の意思疎通に有効な音響特徴、3)聴覚障害者音声の音響的特性を反映した音声認識、4)これらを統合したコミュニケーションブリッジの構築と、5)その評価。本研究により、健聴者と聴覚障害者の相互理解が深まり、ひいては障害者の社会進出が支援可能となる。
|
研究実績の概要 |
本研究では,聴覚障害者の音声認識性能改善が主たる目的である.したがって,障害者からの音声データの収集およびコーパス作成が重要となる. しかしながら,前年度より引き続くCOVID-19による緊急事態宣言の影響により,対面による学生の音声収録は予定よりも遅れることとなった(当初予定40名のところ15名).ただし,収録内容はATR音素バランス文503文を中心として,話者一人当たりおおむね600から700文章を収集した. 年度後半より,収録参加者(学生)および実施責任者がオンラインコミュニケーションに習熟したことにより,数名に対してオンライン下での音声収録を試みた.圧縮音声およびPCM音声の両者を収録するシステムを構築し,次年度以降の効率的なデータ収集への対応を可能とした. 一方,聴覚障害者の音声データの蓄積が進んだことにより,前年度に引き続きend-to-end音声認識による実験を通して,聴覚障害者に共通する音素レベルでの音声認識の誤り傾向の調査を行った.分析の結果,子音/z/, /ts/, /ch/等の一部の誤りについては,他の聴覚障害者の音声データを学習データに追加することにより,おおむね10%程度の誤り削減が可能であることがわかった.このことから,聴覚障害者の調音運動の特徴には一定の共通因子が存在し,十分な量のデータが集積されれば頑健な音声認識が可能だとの結論を得た. 聴覚障害者の音声データ量は本年度の研究においても不十分であったことから,健聴者の音声を利用して,聴覚障害者向け音声認識で用いる際のニューラルネットワークの基本構造の検討を行った.本研究の開始以来,視覚・聴覚障害である盲ろう者に対する情報保障のニーズの高まりを受けたことから,対象を音声点訳としたうえでend-to-endアプローチ(conformer/transformer)による性能の調査を行った.
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
3: やや遅れている
理由
聴覚障害者音声の収集にあたって,当初目標は通期(2020,2021年度)において70名を完了させる予定であったが,32名(男子20名,女子12名)にとどまった.収録者数が予定の半数に届かなかったのは,おおむねCOVID-19流行における緊急事態宣言等の影響により対面での収録が進まなかったことが原因である.これに加えて,当初想定よりも学生発話の調音における曖昧性が大きく,特に読み上げにおいて正しく文章が読まれたかどうかの判断に時間を要したことも遅延の事由として挙げられる.また,聴覚障害者は朗読や音読といった機会に乏しく,音声収録にあたってはおおよそ聴者の3倍程度の時間がかかるなどした.聴覚障害者の発話の多様性は極めて大きいことから,調音の特徴については音韻論的には言及可能であるが,音声認識のような工学的なアプローチに対して信頼性のある知見を得るには,32名の音声では話者数が不足していることが明らかとなった.これは例えば,同一の読み上げ文に対して,文字誤り率が15%から70%超と,話者によって大きく認識性能が異なることが原因である.
|
今後の研究の推進方策 |
聴覚障害者音声の収集に関して,収集の速度を早めるためにオンラインでの音声収集システムを構築しつつある.これは実験参加者と実験責任者をリモート会議ソフトウェアで結び,実験参加者のノートパソコンを責任者がリモートで操作してPCM録音を行うシステムである.これにより,パソコン設置に関する簡単なインストラクションを聴覚障害者に与えることにより,遠隔であってもPCM録音した音声を収集することが可能となる.また,2022年度は多くの研究で使われている健聴者の音声コーパスを用いて健聴者の声質を変換し,擬似的に聴覚障害者音声を生成することによって学習データの拡大を行い,認識率の改善を図ることとしたい.
|