2022 Fiscal Year Annual Research Report

授業における非言語モダリティセンシングの高度化による情報保障・授業改善支援技術

Research Project

Project/Area Number	21H00901
Allocation Type	Single-year Grants
Research Institution	University of Yamanashi
Principal Investigator	西崎博光山梨大学, 大学院総合研究部, 教授 (40362082)
Co-Investigator(Kenkyū-buntansha)	豊浦正広山梨大学, 大学院総合研究部, 准教授 (80550780) 北岡教英豊橋技術科学大学, 工学(系)研究科(研究院), 教授 (10333501) 宇津呂武仁筑波大学, システム情報系, 教授 (90263433) 小林彰夫筑波技術大学, 産業技術学部, 准教授 (10741168)
Project Period (FY)	2021-04-01 – 2025-03-31
Keywords	音声認識 / 機械翻訳 / 字幕作成 / 行動分析 / 話し方分析 / 非言語現象の整形 / 印象評定
Outline of Annual Research Achievements	本研究の目的は，様々な形態で実施される授業において，講師の授業音声や受講者側の映像，教室内に設置されたカメラやマイクから取得した情報に含まれる非言語モダリティセンシング基盤技術の高度化を目的とする。そして，それを基に情報保障・授業改善支援技術を開発し，学生に対する授業のインプットの質を向上させ，教育改善が実現できることを実証する。2022年度の実績は次のとおりである。【非言語現象を考慮した音声認識技術による字幕・翻訳化】音声認識を阻害する要因である，不明瞭性，雑音・残響環境，言い直し・淀み・フィラー(「えーっと」などの有声休止)といった非言語現象に着目し，非言語現象を考慮した認識改善方法を研究した。加えて，発話に含まれる言語断片の解消などのテキストを整形する音声認識技術を開発し，これを用いることで理解しやすい翻訳文の字幕化技術を開発した。被験者実験によって，講演動画に開発した音声認識技術を用いて英語字幕を付与し，字幕の分かりやすさで評価したところ，本技術の有効性を確認することができた。【話し方を特徴付ける特徴量】話し方を特徴付ける特徴量を調査するために，大規模日本語音声コーパスを使った聴取実験（アンケート）の準備をおこなった。100人の被験者に約100発話（1分程度）の音声を聞いてもらい，聴きやすさ，理解しやすさなどの約30項目の印象評価をおこなったデータセットを収集するためのシステム開発をおこなった。【教室の映像・音響センシング】教室に設置してあるカメラやマイクから得られた情報を用い，対面授業における受講生の行動分析技術を開発した。【成果とりまとめ】開発した各要素技術は，国内学会で発表をおこなった。また，雑誌論文ならびに国際会議論文にまとめ，投稿済みである。
Current Status of Research Progress	Current Status of Research Progress 2: Research has progressed on the whole more than it was originally planned. Reason おおむね順調に進展している理由は次のとおりである。まず，【非言語現象を考慮した音声認識技術による字幕・翻訳化】に関して，2022年度初頭では，音声認識を阻害する要因である不明瞭性，雑音・残響環境，言い直し・淀み・フィラー(「えーっと」などの有声休止)といった非言語現象に着目し，非言語現象を考慮した認識改善方法を研究し，発話に含まれる言語断片の解消などのテキスト整形や翻訳しやすい文への整形技術を開発することで翻訳精度を改善することを予定していた。非言語現象を考慮した認識改善方法を開発し，これを利用することで機械翻訳精度が大幅に改善することを示した。また，日本語が理解できない留学生に対して，開発した技術を用いた英語字幕を提示し分かりやすさを評価する被験者実験を前倒しで実施できた。したがって，予定よりも進展していると言える。次に，【話し方を特徴付ける特徴量】については，2022年度初頭では，音響・韻律特徴に加えて，言語的な特徴を加えた話し方を決定付ける特徴量を開発という計画をたてていた。本年度は音声の流暢さのみに注目し，既存の音声コーパス（日本語話し言葉コーパス）を用いて流暢さが判定できる機械学習モデルを構築し，その結果を論文誌で発表した。しかし，話のうまさなどの判定を行うためには，別途，大規模なデータ収集が必要であることが分かったため，被験者が音声を聞いて印象評定が入力できるシステムの開発が完了した。最後に，【教室の映像・音響センシング】については，教室に設置してあるカメラやマイクから得られた情報を用い，対面授業における受講生の行動分析技術を開発することを目的としており，画像や音情報から分析できることを示せた。この成果はジャーナル論文として投稿中であり，計画通りに進んだと言える。以上のことから，本研究は順調に進展していると言える。
Strategy for Future Research Activity	今後は，2022年度の研究課題を引き続き継続する。研究項目（１），（２），（３）各項目の一部の実施と，これらの成果の一部を用いて特に留学生向けの授業保障の枠組みを構築する。【非言語現象を考慮した音声認識技術による字幕・翻訳化】音声認識を阻害する要因である，年齢や性別など話者の多様性，音声の不明瞭性，雑音・残響環境，言い直し・淀み・フィラー(「えーっと」などの有声休止)といった非言語現象に着目し，非言語現象を考慮した認識改善方法を引き続き研究していく予定である。また，大規模言語モデルを使った対話型AI（ChatGPTなど）を活用して，自動的に分かりやすいテキストに整形する方法も検討していく。【話し方を特徴付ける特徴量】話し方を特徴付ける特徴量を調査する。これまでの知見から，音声の基本周波数のゆらぎなどの韻律特徴が話し方評価に有効であることが分かっている。そこで，音響・韻律特徴に加えて，言語的な特徴を加えた話し方を決定付ける特徴量を開発するために，大規模な被験者実験を行う。この被験者実験によって，音声から受ける印象についての調査とデータ収集を行う。その後，機械学習技術を用いて，どのような特徴量が話し方の印象に影響を与えているのかを明らかにしていく。【授業の情報保障の枠組みを構築】要素技術を用いて，日本語の授業に対する英語字幕動画を自動生成する枠組みを構築する。これを用いて大学の授業に参加している日本語が理解できない留学生に提示し，授業内容の理解が十分にできるかなどの調査を実施する。【成果とりまとめ】開発した各要素技術や取り組みは，国内外の人工知能・音声・言語処理・教育工学関連の学会で逐次発表する。

Research Products
(10 results)

All 2023 2022

All Journal Article (4 results) (of which Peer Reviewed: 4 results, Open Access: 1 results) Presentation (6 results)

[Journal Article] A new speech corpus of super-elderly Japanese for acoustic modeling2023
- Author(s)
  Fukuda Meiko、Nishimura Ryota、Nishizaki Hiromitsu、Horii Koharu、Iribe Yurie、Yamamoto Kazumasa、Kitaoka Norihide
- Journal Title
  
  Computer Speech & Language
  
  Volume: 77 Pages: 101424～101424
- DOI
  10.1016/j.csl.2022.101424
- Peer Reviewed
[Journal Article] Comparative Evaluation of Diverse Features in Fluency Evaluation of Spontaneous Speech2023
- Author(s)
  DENG Huaijin、UTSURO Takehito、KOBAYASHI Akio、NISHIZAKI Hiromitsu
- Journal Title
  
  IEICE Transactions on Information and Systems
  
  Volume: E106.D Pages: 36～45
- DOI
  10.1587/transinf.2022EDP7047
- Peer Reviewed / Open Access
[Journal Article] Automatic Selection of Appropriate Data Augmentation Operation for Acoustic Scene Classification Model Training2022
- Author(s)
  Sugiura Toki、Kobayashi Akio、Utsuro Takehito、Nishizaki Hiromitsu
- Journal Title
  
  Proceedings of the 2022 IEEE 11th Global Conference on Consumer Electronics
  
  Volume: － Pages: 355-358
- DOI
  10.1109/GCCE56475.2022.10014333
- Peer Reviewed
[Journal Article] Implicit language information replacing method in Japanese encoder?decode ASR model2022
- Author(s)
  Mori Daiki、Ohta Kengo、Nishimura Ryota、Kitaoka Norihide
- Journal Title
  
  Proceedings of the 2022 9th International Conference on Advanced Informatics: Concepts, Theory and Applications
  
  Volume: － Pages: 1-6
- DOI
  10.1109/ICAICTA56449.2022.9932915
- Peer Reviewed
[Presentation] 日本語音声認識結果の整形に基づく分かりやすい英語字幕の生成2023
- Author(s)
  堀田慎，堀井こはる，北岡教英，西崎博光
- Organizer
  情報処理学会第85回全国大会
[Presentation] 言語・非言語情報タグを付与する音声認識モデルの検討2023
- Author(s)
  塩根凪人，若林佑幸，北岡教英
- Organizer
  SPEASIPワークショップ
[Presentation] 音韻特徴を用いた聴覚障害者音声のEnd-to-End音声認識2023
- Author(s)
  小林彰夫，安啓一
- Organizer
  情報処理学会第85回全国大会
[Presentation] 品質劣化したラジオ音声を対象とした音声強調手法の検討2023
- Author(s)
  小林彰夫，安啓一
- Organizer
  情報処理学会第85回全国大会
[Presentation] Density Ratio Approachに基づく複数Encoder-Decoder音声認識モデル統合手法2022
- Author(s)
  北條圭悟，森大輝，若林佑幸，小川厚徳，北岡教英
- Organizer
  第24回音声言語および第9回自然言語処理シンポジウム
[Presentation] ドメイン外音響情報で補強したEncoder-Decoder音声認識モデルの設計2022
- Author(s)
  森大輝, 太田健吾, 西村良太, 北岡教英
- Organizer
  日本音響学会2022年秋季研究発表会

2022 Fiscal Year Annual Research Report

授業における非言語モダリティセンシングの高度化による情報保障・授業改善支援技術

Principal Investigator

西崎 博光 山梨大学, 大学院総合研究部, 教授 (40362082)

Current Status of Research Progress

Reason

Research Products

[Journal Article] A new speech corpus of super-elderly Japanese for acoustic modeling2023

Author(s)

Journal Title

DOI

[Journal Article] Comparative Evaluation of Diverse Features in Fluency Evaluation of Spontaneous Speech2023

Author(s)

Journal Title

DOI

[Journal Article] Automatic Selection of Appropriate Data Augmentation Operation for Acoustic Scene Classification Model Training2022

Author(s)

Journal Title

DOI

[Journal Article] Implicit language information replacing method in Japanese encoder?decode ASR model2022

Author(s)

Journal Title

DOI

[Presentation] 日本語音声認識結果の整形に基づく分かりやすい英語字幕の生成2023

Author(s)

Organizer

[Presentation] 言語・非言語情報タグを付与する音声認識モデルの検討2023

Author(s)

Organizer

[Presentation] 音韻特徴を用いた聴覚障害者音声のEnd-to-End音声認識2023

Author(s)

Organizer

[Presentation] 品質劣化したラジオ音声を対象とした音声強調手法の検討2023

Author(s)

Organizer

[Presentation] Density Ratio Approachに基づく複数Encoder-Decoder音声認識モデル統合手法2022

Author(s)

Organizer

[Presentation] ドメイン外音響情報で補強したEncoder-Decoder音声認識モデルの設計2022

Author(s)

Organizer

西崎博光山梨大学, 大学院総合研究部, 教授 (40362082)