研究課題/領域番号 |
21H00901
|
配分区分 | 補助金 |
研究機関 | 山梨大学 |
研究代表者 |
西崎 博光 山梨大学, 大学院総合研究部, 教授 (40362082)
|
研究分担者 |
豊浦 正広 山梨大学, 大学院総合研究部, 教授 (80550780)
北岡 教英 豊橋技術科学大学, 工学(系)研究科(研究院), 教授 (10333501)
小林 彰夫 大和大学, 情報学部, 教授 (10741168)
宇津呂 武仁 筑波大学, システム情報系, 教授 (90263433)
|
研究期間 (年度) |
2021-04-01 – 2025-03-31
|
キーワード | 音声認識 / 高齢者音声認識 / 音声認識誤り訂正 / 機械翻訳 / OCR / 話し方の特徴 |
研究実績の概要 |
本研究の目的は,様々な形態で実施される授業において,講師の授業音声や受講者側の映像,教室内に設置されたカメラやマイクから取得した情報に含まれる非言語モダリティセンシング基盤技術の高度化を目的とする。そして,それを基に情報保障・授業改善支援技術を開発し,学生に対する授業のインプットの質を向上させ,教育改善が実現できることを実証する。2023年度の実績は次のとおりである。 【非言語現象を考慮した音声認識と機械翻訳技術】音声認識の阻害要因には,不明瞭性,雑音・残響環境,言い直し・フィラーといった非言語現象がある。2023年度は,特に不明瞭な音声である高齢者音声認識に着目した研究を行った。特に,高齢者音声に見られる発話速度についての研究調査を行い,End-to-end型の音声認識よりも時間制御をしやすいハイブリッド型HMM-DNN音声認識技術の可能性を見出した。また,雑音・残響環境の音声に対する音声強調の研究も行い,拡散モデルによる音声強調手法の研究を行った。加えて,音声認識結果に含まれる誤認識文字を後処理で訂正する方法を考案し,大規模言語モデルを用いることで大幅に音声認識が改善できることを示した。授業音声の字幕化については、音声認識結果の翻訳は高い精度で実現できるようになり、スライドの文字や黒板文字の文字認識技術の開発に取り組み,高いOCR精度を実現することができた。 【話し方を特徴付ける特徴量】話し方を特徴付ける特徴量を調査するために,大規模日本語音声コーパスを使った聴取実験(アンケート)を実施し、50人の被験者にそれぞれ約100発話(30秒程度)の音声を聞いてもらい,聴きやすさ,理解しやすさなどの約30項目の印象評価をおこなったデータセットを収集した。 【成果とりまとめ】 開発した各要素技術は,国内学会で発表をおこなった。また,雑誌論文ならびに国際会議論文にまとめ,投稿済みである。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
おおむね順調に進展している理由は次のとおりである。 まず,【非言語現象を考慮した音声認識と機械翻訳技術】に関して,2023年度初頭では,音声認識を阻害する要因である不明瞭性,雑音・残響環境,言い直し・淀み・フィラーといった非言語現象に着目し,非言語現象を考慮した認識改善方法を研究し,発話に含まれる言語断片の解消などのテキスト整形や翻訳しやすい文への整形技術を開発することで翻訳精度を改善することを予定していた。非言語現象を考慮した認識改善方法を開発し,これを利用した機械翻訳字幕の提示方法を確立した。高齢者音声認識についてもend-to-endやHMM-DNNハイブリッド法を検討した。雑音・残響環境についても拡散モデルベースの音声強調アルゴリズムの開発を行った。音声認識の精度改善については,誤認識文字を後処理で訂正する方法を考案し,大規模言語モデルを用いることで大幅に音声認識が改善できることを示した。したがって,概ね進捗通りだと言える。 次に,【話し方を特徴付ける特徴量】については,2023年度初頭では,音響・韻律特徴に加えて,言語的な特徴を加えた話し方を決定付ける特徴量を開発するための聴取実験を計画していた。2022年度に開発した音声を聞いて印象評定が入力できるシステムを用いて,50名程度の被験者から音声印象に関する大規模な印象データを収集した。 【教室の映像・音 響センシング】については,研究がある程度完了し,ジャーナル論文として投稿中であり,計画通りに進んだと言える。 以上のことから,本研究は順調に進展していると言える。
|
今後の研究の推進方策 |
2024年度は,これまでの成果を活用して特に留学生向けの授業保障の枠組みを構築することを目指す。 【非言語現象を考慮した音声認識技術による字幕・翻訳化】音声認識を阻害する要因である話者の多様性(年齢,性別など),音声の不明瞭性,雑音・残響環境に頑健な音声認識技術の研究を進める。具体的には,大規模言語モデルを用いた音声認識誤りの自動訂正や,対話型AI(ChatGPTなど)を活用して音声認識結果を自動的に分かりやすい翻訳テキストに整形する方法も検討する。これにより,音声認識の精度と翻訳品質の向上を図る。授業音声の字幕化については,授業資料であるスライドの文字や黒板文字の翻訳には課題が残る。そこで,スライドや黒板の文字認識技術の精度改善と,認識結果を効果的に翻訳する技術の開発を行う。 【話し方を特徴付ける特徴量】2022年度に引き続き,50名程度の被験者から音声に対する印象評価に関する大規模なデータを収集する。2年間で収集したデータを分析し,話し方を評価する技術を開発する。収集したデータはデータセットとして整備し,公開する予定である。 【授業の情報保障の枠組みを構築】上記の要素技術を統合し,日本語の授業に対して英語字幕付きの動画を自動生成するシステムを構築する。このシステムを用いて,大学の授業に参加している日本語が理解できない留学生に字幕付き動画を提示し,授業内容の理解度や満足度などの調査を実施する。 【成果とりまとめ】国内外の人工知能・音声・言語処理・教育工学関連の学会で積極的に発表し,研究コミュニティへの貢献を図る。また,論文としてまとめ,学術誌への投稿も行う。本研究の目的は,音声認識・翻訳技術,話し方評価技術によって情報保障システムを開発し,教育の質の向上と学生の理解促進に寄与することである。2024年度の研究活動を通じて,研究目的の達成に向けて邁進する。
|