2022 年度実績報告書

授業における非言語モダリティセンシングの高度化による情報保障・授業改善支援技術

研究課題

研究課題/領域番号	21H00901
配分区分	補助金
研究機関	山梨大学
研究代表者	西崎博光山梨大学, 大学院総合研究部, 教授 (40362082)
研究分担者	豊浦正広山梨大学, 大学院総合研究部, 准教授 (80550780) 北岡教英豊橋技術科学大学, 工学(系)研究科(研究院), 教授 (10333501) 宇津呂武仁筑波大学, システム情報系, 教授 (90263433) 小林彰夫筑波技術大学, 産業技術学部, 准教授 (10741168)
研究期間 (年度)	2021-04-01 – 2025-03-31
キーワード	音声認識 / 機械翻訳 / 字幕作成 / 行動分析 / 話し方分析 / 非言語現象の整形 / 印象評定
研究実績の概要	本研究の目的は，様々な形態で実施される授業において，講師の授業音声や受講者側の映像，教室内に設置されたカメラやマイクから取得した情報に含まれる非言語モダリティセンシング基盤技術の高度化を目的とする。そして，それを基に情報保障・授業改善支援技術を開発し，学生に対する授業のインプットの質を向上させ，教育改善が実現できることを実証する。2022年度の実績は次のとおりである。【非言語現象を考慮した音声認識技術による字幕・翻訳化】音声認識を阻害する要因である，不明瞭性，雑音・残響環境，言い直し・淀み・フィラー(「えーっと」などの有声休止)といった非言語現象に着目し，非言語現象を考慮した認識改善方法を研究した。加えて，発話に含まれる言語断片の解消などのテキストを整形する音声認識技術を開発し，これを用いることで理解しやすい翻訳文の字幕化技術を開発した。被験者実験によって，講演動画に開発した音声認識技術を用いて英語字幕を付与し，字幕の分かりやすさで評価したところ，本技術の有効性を確認することができた。【話し方を特徴付ける特徴量】話し方を特徴付ける特徴量を調査するために，大規模日本語音声コーパスを使った聴取実験（アンケート）の準備をおこなった。100人の被験者に約100発話（1分程度）の音声を聞いてもらい，聴きやすさ，理解しやすさなどの約30項目の印象評価をおこなったデータセットを収集するためのシステム開発をおこなった。【教室の映像・音響センシング】教室に設置してあるカメラやマイクから得られた情報を用い，対面授業における受講生の行動分析技術を開発した。【成果とりまとめ】開発した各要素技術は，国内学会で発表をおこなった。また，雑誌論文ならびに国際会議論文にまとめ，投稿済みである。
現在までの達成度 (区分)	現在までの達成度 (区分) 2: おおむね順調に進展している理由おおむね順調に進展している理由は次のとおりである。まず，【非言語現象を考慮した音声認識技術による字幕・翻訳化】に関して，2022年度初頭では，音声認識を阻害する要因である不明瞭性，雑音・残響環境，言い直し・淀み・フィラー(「えーっと」などの有声休止)といった非言語現象に着目し，非言語現象を考慮した認識改善方法を研究し，発話に含まれる言語断片の解消などのテキスト整形や翻訳しやすい文への整形技術を開発することで翻訳精度を改善することを予定していた。非言語現象を考慮した認識改善方法を開発し，これを利用することで機械翻訳精度が大幅に改善することを示した。また，日本語が理解できない留学生に対して，開発した技術を用いた英語字幕を提示し分かりやすさを評価する被験者実験を前倒しで実施できた。したがって，予定よりも進展していると言える。次に，【話し方を特徴付ける特徴量】については，2022年度初頭では，音響・韻律特徴に加えて，言語的な特徴を加えた話し方を決定付ける特徴量を開発という計画をたてていた。本年度は音声の流暢さのみに注目し，既存の音声コーパス（日本語話し言葉コーパス）を用いて流暢さが判定できる機械学習モデルを構築し，その結果を論文誌で発表した。しかし，話のうまさなどの判定を行うためには，別途，大規模なデータ収集が必要であることが分かったため，被験者が音声を聞いて印象評定が入力できるシステムの開発が完了した。最後に，【教室の映像・音響センシング】については，教室に設置してあるカメラやマイクから得られた情報を用い，対面授業における受講生の行動分析技術を開発することを目的としており，画像や音情報から分析できることを示せた。この成果はジャーナル論文として投稿中であり，計画通りに進んだと言える。以上のことから，本研究は順調に進展していると言える。
今後の研究の推進方策	今後は，2022年度の研究課題を引き続き継続する。研究項目（１），（２），（３）各項目の一部の実施と，これらの成果の一部を用いて特に留学生向けの授業保障の枠組みを構築する。【非言語現象を考慮した音声認識技術による字幕・翻訳化】音声認識を阻害する要因である，年齢や性別など話者の多様性，音声の不明瞭性，雑音・残響環境，言い直し・淀み・フィラー(「えーっと」などの有声休止)といった非言語現象に着目し，非言語現象を考慮した認識改善方法を引き続き研究していく予定である。また，大規模言語モデルを使った対話型AI（ChatGPTなど）を活用して，自動的に分かりやすいテキストに整形する方法も検討していく。【話し方を特徴付ける特徴量】話し方を特徴付ける特徴量を調査する。これまでの知見から，音声の基本周波数のゆらぎなどの韻律特徴が話し方評価に有効であることが分かっている。そこで，音響・韻律特徴に加えて，言語的な特徴を加えた話し方を決定付ける特徴量を開発するために，大規模な被験者実験を行う。この被験者実験によって，音声から受ける印象についての調査とデータ収集を行う。その後，機械学習技術を用いて，どのような特徴量が話し方の印象に影響を与えているのかを明らかにしていく。【授業の情報保障の枠組みを構築】要素技術を用いて，日本語の授業に対する英語字幕動画を自動生成する枠組みを構築する。これを用いて大学の授業に参加している日本語が理解できない留学生に提示し，授業内容の理解が十分にできるかなどの調査を実施する。【成果とりまとめ】開発した各要素技術や取り組みは，国内外の人工知能・音声・言語処理・教育工学関連の学会で逐次発表する。

研究成果
(10件)

すべて 2023 2022

すべて雑誌論文 (4件) (うち査読あり 4件、オープンアクセス 1件) 学会発表 (6件)

[雑誌論文] A new speech corpus of super-elderly Japanese for acoustic modeling2023
- 著者名/発表者名
  Fukuda Meiko、Nishimura Ryota、Nishizaki Hiromitsu、Horii Koharu、Iribe Yurie、Yamamoto Kazumasa、Kitaoka Norihide
- 雑誌名
  
  Computer Speech & Language
  
  巻: 77 ページ: 101424～101424
- DOI
  10.1016/j.csl.2022.101424
- 査読あり
[雑誌論文] Comparative Evaluation of Diverse Features in Fluency Evaluation of Spontaneous Speech2023
- 著者名/発表者名
  DENG Huaijin、UTSURO Takehito、KOBAYASHI Akio、NISHIZAKI Hiromitsu
- 雑誌名
  
  IEICE Transactions on Information and Systems
  
  巻: E106.D ページ: 36～45
- DOI
  10.1587/transinf.2022EDP7047
- 査読あり / オープンアクセス
[雑誌論文] Automatic Selection of Appropriate Data Augmentation Operation for Acoustic Scene Classification Model Training2022
- 著者名/発表者名
  Sugiura Toki、Kobayashi Akio、Utsuro Takehito、Nishizaki Hiromitsu
- 雑誌名
  
  Proceedings of the 2022 IEEE 11th Global Conference on Consumer Electronics
  
  巻: －ページ: 355-358
- DOI
  10.1109/GCCE56475.2022.10014333
- 査読あり
[雑誌論文] Implicit language information replacing method in Japanese encoder?decode ASR model2022
- 著者名/発表者名
  Mori Daiki、Ohta Kengo、Nishimura Ryota、Kitaoka Norihide
- 雑誌名
  
  Proceedings of the 2022 9th International Conference on Advanced Informatics: Concepts, Theory and Applications
  
  巻: －ページ: 1-6
- DOI
  10.1109/ICAICTA56449.2022.9932915
- 査読あり
[学会発表] 日本語音声認識結果の整形に基づく分かりやすい英語字幕の生成2023
- 著者名/発表者名
  堀田慎，堀井こはる，北岡教英，西崎博光
- 学会等名
  情報処理学会第85回全国大会
[学会発表] 言語・非言語情報タグを付与する音声認識モデルの検討2023
- 著者名/発表者名
  塩根凪人，若林佑幸，北岡教英
- 学会等名
  SPEASIPワークショップ
[学会発表] 音韻特徴を用いた聴覚障害者音声のEnd-to-End音声認識2023
- 著者名/発表者名
  小林彰夫，安啓一
- 学会等名
  情報処理学会第85回全国大会
[学会発表] 品質劣化したラジオ音声を対象とした音声強調手法の検討2023
- 著者名/発表者名
  小林彰夫，安啓一
- 学会等名
  情報処理学会第85回全国大会
[学会発表] Density Ratio Approachに基づく複数Encoder-Decoder音声認識モデル統合手法2022
- 著者名/発表者名
  北條圭悟，森大輝，若林佑幸，小川厚徳，北岡教英
- 学会等名
  第24回音声言語および第9回自然言語処理シンポジウム
[学会発表] ドメイン外音響情報で補強したEncoder-Decoder音声認識モデルの設計2022
- 著者名/発表者名
  森大輝, 太田健吾, 西村良太, 北岡教英
- 学会等名
  日本音響学会2022年秋季研究発表会

2022 年度 実績報告書

授業における非言語モダリティセンシングの高度化による情報保障・授業改善支援技術

研究代表者

西崎 博光 山梨大学, 大学院総合研究部, 教授 (40362082)

現在までの達成度 (区分)

理由

研究成果

[雑誌論文] A new speech corpus of super-elderly Japanese for acoustic modeling2023

著者名/発表者名

雑誌名

DOI

[雑誌論文] Comparative Evaluation of Diverse Features in Fluency Evaluation of Spontaneous Speech2023

著者名/発表者名

雑誌名

DOI

[雑誌論文] Automatic Selection of Appropriate Data Augmentation Operation for Acoustic Scene Classification Model Training2022

著者名/発表者名

雑誌名

DOI

[雑誌論文] Implicit language information replacing method in Japanese encoder?decode ASR model2022

著者名/発表者名

雑誌名

DOI

[学会発表] 日本語音声認識結果の整形に基づく分かりやすい英語字幕の生成2023

著者名/発表者名

学会等名

[学会発表] 言語・非言語情報タグを付与する音声認識モデルの検討2023

著者名/発表者名

学会等名

[学会発表] 音韻特徴を用いた聴覚障害者音声のEnd-to-End音声認識2023

著者名/発表者名

学会等名

[学会発表] 品質劣化したラジオ音声を対象とした音声強調手法の検討2023

著者名/発表者名

学会等名

[学会発表] Density Ratio Approachに基づく複数Encoder-Decoder音声認識モデル統合手法2022

著者名/発表者名

学会等名

[学会発表] ドメイン外音響情報で補強したEncoder-Decoder音声認識モデルの設計2022

著者名/発表者名

学会等名

2022 年度実績報告書

西崎博光山梨大学, 大学院総合研究部, 教授 (40362082)