研究課題/領域番号 |
21H00901
|
配分区分 | 補助金 |
研究機関 | 山梨大学 |
研究代表者 |
西崎 博光 山梨大学, 大学院総合研究部, 教授 (40362082)
|
研究分担者 |
豊浦 正広 山梨大学, 大学院総合研究部, 准教授 (80550780)
北岡 教英 豊橋技術科学大学, 工学(系)研究科(研究院), 教授 (10333501)
宇津呂 武仁 筑波大学, システム情報系, 教授 (90263433)
小林 彰夫 筑波技術大学, 産業技術学部, 准教授 (10741168)
|
研究期間 (年度) |
2021-04-01 – 2025-03-31
|
キーワード | 音声認識 / 機械翻訳 / 字幕作成 / 行動分析 / 話し方分析 / 非言語現象の整形 / 印象評定 |
研究実績の概要 |
本研究の目的は,様々な形態で実施される授業において,講師の授業音声や受講者側の映像,教室内に設置されたカメラやマイクから取得した情報に含まれる非言語モダリティセンシング基盤技術の高度化を目的とする。そして,それを基に情報保障・授業改善支援技術を開発し,学生に対する授業のインプットの質を向上させ,教育改善が実現できることを実証する。2022年度の実績は次のとおりである。 【非言語現象を考慮した音声認識技術による字幕・翻訳化】音声認識を阻害する要因である,不明瞭性,雑音・残響環境,言い直し・淀み・フィラー(「えーっと」などの有声休止)といった非言語現象に着目し,非言語現象を考慮した認識改善方法を研究した。加えて,発話に含まれる言語断片の解消などのテキストを整形する音声認識技術を開発し,これを用いることで理解しやすい翻訳文の字幕化技術を開発した。被験者実験によって,講演動画に開発した音声認識技術を用いて英語字幕を付与し,字幕の分かりやすさで評価したところ,本技術の有効性を確認することができた。 【話し方を特徴付ける特徴量】話し方を特徴付ける特徴量を調査するために,大規模日本語音声コーパスを使った聴取実験(アンケート)の準備をおこなった。100人の被験者に約100発話(1分程度)の音声を聞いてもらい,聴きやすさ,理解しやすさなどの約30項目の印象評価をおこなったデータセットを収集するためのシステム開発をおこなった。 【教室の映像・音 響センシング】教室に設置してあるカメラやマイクから得られた情報を用い,対面授業における受講生の行動分析技術を開発した。 【成果とりまとめ】開発した各要素技術は,国内学会で発表をおこなった。また,雑誌論文ならびに国際会議論文にまとめ,投稿済みである。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
おおむね順調に進展している理由は次のとおりである。 まず,【非言語現象を考慮した音声認識技術による字幕・翻訳化】に関して,2022年度初頭では,音声認識を阻害する要因である不明瞭性,雑音・残響環境,言い直し・淀み・フィラー(「えーっと」などの有声休止)といった非言語現象に着目し,非言語現象を考慮した認識改善方法を研究し,発話に含まれる言語断片の解消などのテキスト整形や翻訳しやすい文への整形技術を開発することで翻訳精度を改善することを予定していた。非言語現象を考慮した認識改善方法を開発し,これを利用することで機械翻訳精度が大幅に改善することを示した。また,日本語が理解できない留学生に対して,開発した技術を用いた英語字幕を提示し分かりやすさを評価する被験者実験を前倒しで実施できた。したがって,予定よりも進展していると言える。 次に,【話し方を特徴付ける特徴量】については,2022年度初頭では,音響・韻律特徴に加えて,言語的な特徴を加えた話し方を決定付ける特徴量を開発という計画をたてていた。本年度は音声の流暢さのみに注目し,既存の音声コーパス(日本語話し言葉コーパス)を用いて流暢さが判定できる機械学習モデルを構築し,その結果を論文誌で発表した。しかし,話のうまさなどの判定を行うためには,別途,大規模なデータ収集が必要であることが分かったため,被験者が音声を聞いて印象評定が入力できるシステムの開発が完了した。 最後に,【教室の映像・音 響センシング】については,教室に設置してあるカメラやマイクから得られた情報を用い,対面授業における受講生の行動分析技術を開発することを目的としており,画像や音情報から分析できることを示せた。この成果はジャーナル論文として投稿中であり,計画通りに進んだと言える。 以上のことから,本研究は順調に進展していると言える。
|
今後の研究の推進方策 |
今後は,2022年度の研究課題を引き続き継続する。研究項目(1),(2),(3)各項目の一部の実施と,これらの成果の一部を用いて特に留学生向けの授業保障の枠組みを構築する。 【非言語現象を考慮した音声認識技術による字幕・翻訳化】音声認識を阻害する要因である,年齢や性別など話者の多様性,音声の不明瞭性,雑音・残響環境,言い直し・淀み・フィラー(「えーっと」などの有声休止)といった非言語現象に着目し,非言語現象を考慮した認識改善方法を引き続き研究していく予定である。また,大規模言語モデルを使った対話型AI(ChatGPTなど)を活用して,自動的に分かりやすいテキストに整形する方法も検討していく。 【話し方を特徴付ける特徴量】話し方を特徴付ける特徴量を調査する。これまでの知見から,音声の基本周波数のゆらぎなどの韻律特徴が話し方評価に有効であることが分かっている。そこで,音響・韻律特徴に加えて,言語的な特徴を加えた話し方を決定付ける特徴量を開発するために,大規模な被験者実験を行う。この被験者実験によって,音声から受ける印象についての調査とデータ収集を行う。その後,機械学習技術を用いて,どのような特徴量が話し方の印象に影響を与えているのかを明らかにしていく。 【授業の情報保障の枠組みを構築】要素技術を用いて,日本語の授業に対する英語字幕動画を自動生成する枠組みを構築する。これを用いて大学の授業に参加している日本語が理解できない留学生に提示し,授業内容の理解が十分にできるかなどの調査を実施する。 【成果とりまとめ】 開発した各要素技術や取り組みは,国内外の人工知能・音声・言語処理・教育工学関連の学会で逐次発表する。
|