2021 Fiscal Year Annual Research Report

授業における非言語モダリティセンシングの高度化による情報保障・授業改善支援技術

Research Project

Project/Area Number	21H00901
Allocation Type	Single-year Grants
Research Institution	University of Yamanashi
Principal Investigator	西崎博光山梨大学, 大学院総合研究部, 教授 (40362082)
Co-Investigator(Kenkyū-buntansha)	北岡教英豊橋技術科学大学, 工学(系)研究科(研究院), 教授 (10333501) 小林彰夫筑波技術大学, 産業技術学部, 准教授 (10741168) 豊浦正広山梨大学, 大学院総合研究部, 准教授 (80550780) 宇津呂武仁筑波大学, システム情報系, 教授 (90263433)
Project Period (FY)	2021-04-01 – 2025-03-31
Keywords	音声認識 / 非言語情報 / 話し方評価 / 行動分析 / 深層学習
Outline of Annual Research Achievements	本研究の目的は，授業において，講師の授業音声や受講者側の映像等に含まれる非言語モダリティセンシング基盤技術の高度化を目的とする。そして，それを基に情報保障・授業改善支援技術を開発し，学生に対する授業のインプットの質を向上させ，教育改善が実現できることを実証していく。2021年度は，以下の項目について研究を実施した。【音声認識改善方法の検討】音声認識を阻害する要因である，不明瞭性，雑音・残響環境，言い直し・淀み・フィラー(「えーっと」などの有声休止)といった非言語現象に着目し，非言語現象を考慮した認識改善方法を研究した。具体的には，非言語現象を直接推定する機械学習手法を考案した。【話し方を特徴付ける特徴量の調査】まずは，日本語の音声コーパスを用いて，音声の流暢さ（非流暢さ）の判定を行うための特徴量を調査した。これまでの知見から，言い淀みや言い直しなどの現象や音声の基本周波数のゆらぎなどの韻律特徴が流暢さの判定に有効であることが分かっている。そこで，これらの情報に加えてどのような音響・韻律・言語的特徴が話し方（特に流暢さ）に影響を与えているのかを調査した。【行動分析技術の開発】教室に設置してあるカメラやマイクから得られた情報を用い，対面授業における受講生の行動分析技術を開発した。授業は時間とともに経過していくため，時間変化がとらえられるような特徴量の模索とそれを最適に処理できる深層学習モデルの研究を実施した。【成果とりまとめ】開発した各要素技術は，国内外の学会で発表を行った。
Current Status of Research Progress	Current Status of Research Progress 2: Research has progressed on the whole more than it was originally planned. Reason おおむね順調に進展している理由は次のとおりである。まず，【音声認識改善方法の検討】に関して，2021年度初頭では，音声認識を阻害する要因である不明瞭性，雑音・残響環境，言い直し・淀み・フィラー(「えーっと」などの有声休止)といった非言語現象に着目し，非言語現象を考慮した認識改善方法を研究することを予定していた。2021年度に，音声中の言い直しや言い淀み，フィラーを直接推定する「非言語情報ラベリング」手法を用いることで，字幕などで不要な発話内容を自動的に検出できることができた。非言語的な情報によって音声認識誤りが引き起こされることになるが，今回の提案手法によってそれを抑えることが分かり，全体的に音声認識精度が改善できることを示した。加えて，雑音除去処理や音声・音響データを扱う深層学習モデルの改善に資するデータ拡張手法も開発できた。したがって，予定どおり進展していると言える。次に【話し方を特徴付ける特徴量の調査】については，2021年度初頭では，音響・韻律特徴に加えて，言語的な特徴を加えた話し方を決定付ける特徴量を開発という計画をたてていた。本年度は音声の流暢さのみに注目し，既存の音声コーパス（日本語話し言葉コーパス）を用いて流暢さが判定できる機械学習モデルのための特徴量を調査した。その結果，流暢さの判定には言い淀みや言い直しなどの非言語的な要因が大きな影響を与えていることなどが明らかとなった。これらの情報を使った流暢さを判定する深層学習モデルを開発し，話し方，特に流暢さを判定するモデルの開発を実施した。したがって，予定通り進捗していると言える。最後に，【行動分析技術の開発】については，教室に設置してあるカメラやマイクから得られた情報を用い，対面授業における受講生の行動分析技術を開発することを目的としており，画像や音情報の時間的変化を捉えることが有効であることを明らかとした。
Strategy for Future Research Activity	今後は，2021年度の研究課題を引き続き継続する。今年度実施した各項目についての更なる発展技術の研究と，これらの成果の一部を用いて特に留学生向けの授業保障の枠組みの構築を検討する。【非言語現象を考慮した音声認識技術による字幕・翻訳化】音声認識を阻害する要因である，年齢や性別など話者の多様性，音声の不明瞭性，雑音・残響環境，言い直し・淀み・フィラー(「えーっと」などの有声休止)といった非言語現象に着目し，非言語現象を考慮した認識改善方法を引き続き研究していく予定である。また，音声認識結果の整形方法とこれを使った翻訳字幕作成方法を検討していく。【話し方を特徴付ける特徴量】話し方を特徴付ける特徴量を調査する。これまでの知見から，非言語的な情報と，音声の基本周波数のゆらぎなどの韻律特徴が話し方評価に有効であることが分かっている。そこで，音響・韻律特徴に加えて，言語的な特徴を加えた話し方を決定付ける特徴量を開発するために，大規模な被験者実験を行うためのツールの開発を行う。この被験者実験によって，音声から受ける印象についての調査とデータ収集を行う。【行動分析技術の開発】引き続き，教室に設置してあるカメラやマイクから得られた情報を用い，対面授業における受講生の行動分析技術をブラッシュアップしていく。授業は時間とともに経過していくため，時間変化がとらえられるような特徴量の模索とそれを最適に処理できる深層学習モデルを考案する。【成果とりまとめ】開発した各要素技術や取り組みは，国内外の人工知能・音声・言語処理・教育工学関連の学会で逐次発表する。

Research Products
(10 results)

All 2022 2021

All Journal Article (6 results) (of which Peer Reviewed: 6 results, Open Access: 2 results) Presentation (4 results) (of which Invited: 1 results)

[Journal Article] Comparison of Static and Time-Sequential Features in Automatic Fluency Detection of Spontaneous Speech2021
- Author(s)
  Deng Huaijin、Utsuro Takehito、Kobayashi Akio、Nishizaki Hiromitsu
- Journal Title
  
  Proceedings of the 24th Conference of the Oriental COCOSDA
  
  Pages: 158-163
- DOI
  10.1109/O-COCOSDA202152914.2021.9660601
- Peer Reviewed
[Journal Article] ExKaldi-RT: A Real-Time Automatic Speech Recognition Extension Toolkit of Kaldi2021
- Author(s)
  Wang Yu、Leow Chee Siang、Kobayashi Akio、Utsuro Takehito、Nishizaki Hiromitsu
- Journal Title
  
  Proceedings of the 2021 IEEE 10th Global Conference on Consumer Electronics
  
  Pages: 346-350
- DOI
  10.1109/GCCE53005.2021.9621992
- Peer Reviewed
[Journal Article] Audio Synthesis-based Data Augmentation Considering Audio Event Class2021
- Author(s)
  Sugiura Toki、Kobayashi Akio、Utsuro Takehito、Nishizaki Hiromitsu
- Journal Title
  
  Proceedings of the 2021 IEEE 10th Global Conference on Consumer Electronics
  
  Pages: 72-76
- DOI
  10.1109/GCCE53005.2021.9621828
- Peer Reviewed
[Journal Article] Corpus Design and Automatic Speech Recognition for Deaf and Hard-of-Hearing People2021
- Author(s)
  Kobayashi Akio、Yasu Keiichi、Nishizaki Hiromitsu、Kitaoka Norihide
- Journal Title
  
  Proceedings of the 2021 IEEE 10th Global Conference on Consumer Electronics
  
  Pages: 17-18
- DOI
  10.1109/GCCE53005.2021.9621959
- Peer Reviewed
[Journal Article] Language and Speaker-Independent Feature Transformation for End-to-End Multilingual Speech Recognition2021
- Author(s)
  Hayakawa Tomoaki、Leow Chee Siang、Kobayashi Akio、Utsuro Takehito、Nishizaki Hiromitsu
- Journal Title
  
  Proceedings of INTERSPEECH2021
  
  Pages: 2431-2435
- DOI
  10.21437/Interspeech.2021-390
- Peer Reviewed / Open Access
[Journal Article] Voice Activity Detection for Live Speech of Baseball Game Based on Tandem Connection with Speech/Noise Separation Model2021
- Author(s)
  Nonaka Yuto、Leow Chee Siang、Kobayashi Akio、Utsuro Takehito、Nishizaki Hiromitsu
- Journal Title
  
  Proceedings of INTERSPEECH2021
  
  Pages: 351-355
- DOI
  10.21437/Interspeech.2021-792
- Peer Reviewed / Open Access
[Presentation] 周波数軸注意機構を用いた特徴変換モデルに基づく複数言語音声認識2022
- Author(s)
  土橋晃弘，レオチーシャン，西崎博光
- Organizer
  日本音響学会2022年春季研究発表会
[Presentation] Peer Collaborative Learningを用いた音響イベント区間検出2022
- Author(s)
  遠藤颯人，西崎博光
- Organizer
  日本音響学会2022年春季研究発表会
[Presentation] Kaldiベースのストリーミング音声認識システムの開発2021
- Author(s)
  レオチーシャン，王宇，小林彰夫，宇津呂武仁，西崎博光
- Organizer
  日本音響学会2021年秋季研究発表会
[Presentation] 深層学習技術の発展と共に歩む音声認識研究2021
- Author(s)
  西崎博光
- Organizer
  電子情報通信学会，信学技法，ネットワークシステム研究会
- Invited

2021 Fiscal Year Annual Research Report

授業における非言語モダリティセンシングの高度化による情報保障・授業改善支援技術

Principal Investigator

西崎 博光 山梨大学, 大学院総合研究部, 教授 (40362082)

Current Status of Research Progress

Reason

Research Products

[Journal Article] Comparison of Static and Time-Sequential Features in Automatic Fluency Detection of Spontaneous Speech2021

Author(s)

Journal Title

DOI

[Journal Article] ExKaldi-RT: A Real-Time Automatic Speech Recognition Extension Toolkit of Kaldi2021

Author(s)

Journal Title

DOI

[Journal Article] Audio Synthesis-based Data Augmentation Considering Audio Event Class2021

Author(s)

Journal Title

DOI

[Journal Article] Corpus Design and Automatic Speech Recognition for Deaf and Hard-of-Hearing People2021

Author(s)

Journal Title

DOI

[Journal Article] Language and Speaker-Independent Feature Transformation for End-to-End Multilingual Speech Recognition2021

Author(s)

Journal Title

DOI

[Journal Article] Voice Activity Detection for Live Speech of Baseball Game Based on Tandem Connection with Speech/Noise Separation Model2021

Author(s)

Journal Title

DOI

[Presentation] 周波数軸注意機構を用いた特徴変換モデルに基づく複数言語音声認識2022

Author(s)

Organizer

[Presentation] Peer Collaborative Learningを用いた音響イベント区間検出2022

Author(s)

Organizer

[Presentation] Kaldiベースのストリーミング音声認識システムの開発2021

Author(s)

Organizer

[Presentation] 深層学習技術の発展と共に歩む音声認識研究2021

Author(s)

Organizer

西崎博光山梨大学, 大学院総合研究部, 教授 (40362082)