研究課題/領域番号 |
21H00901
|
配分区分 | 補助金 |
研究機関 | 山梨大学 |
研究代表者 |
西崎 博光 山梨大学, 大学院総合研究部, 教授 (40362082)
|
研究分担者 |
北岡 教英 豊橋技術科学大学, 工学(系)研究科(研究院), 教授 (10333501)
小林 彰夫 筑波技術大学, 産業技術学部, 准教授 (10741168)
豊浦 正広 山梨大学, 大学院総合研究部, 准教授 (80550780)
宇津呂 武仁 筑波大学, システム情報系, 教授 (90263433)
|
研究期間 (年度) |
2021-04-01 – 2025-03-31
|
キーワード | 音声認識 / 非言語情報 / 話し方評価 / 行動分析 / 深層学習 |
研究実績の概要 |
本研究の目的は,授業において,講師の授業音声や受講者側の映像等に含まれる非言語モダリティセンシング基盤技術の高度化を目的とする。そして,それを基に情報保障・授業改善支援技術を開発し,学生に対する授業のインプットの質を向上させ,教育改善が実現できることを実証していく。2021年度は,以下の項目について研究を実施した。 【音声認識改善方法の検討】音声認識を阻害する要因である,不明瞭性,雑音・残響環境,言い直し・淀み・フィラー(「えーっと」などの有声休止)といった非言語現象に着目し,非言語現象を考慮した認識改善方法を研究した。具体的には,非言語現象を直接推定する機械学習手法を考案した。 【話し方を特徴付ける特徴量の調査】まずは,日本語の音声コーパスを用いて,音声の流暢さ(非流暢さ)の判定を行うための特徴量を調査した。これまでの知見から,言い淀みや言い直しなどの現象や音声の基本周波数のゆらぎなどの韻律特徴が流暢さの判定に有効であることが分かっている。そこで,これらの情報に加えてどのような音響・韻律・言語的特徴が話し方(特に流暢さ)に影響を与えているのかを調査した。 【行動分析技術の開発】教室に設置してあるカメラやマイクから得られた情報を用い,対面授業における受講生の行動分析技術を開発した。授業は時間とともに経過していくため,時間変化がとらえられるような特徴量の模索とそれを最適に処理できる深層学習モデルの研究を実施した。 【成果とりまとめ】開発した各要素技術は,国内外の学会で発表を行った。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
おおむね順調に進展している理由は次のとおりである。 まず,【音声認識改善方法の検討】に関して,2021年度初頭では,音声認識を阻害する要因である不明瞭性,雑音・残響環境,言い直し・淀み・フィラー(「えーっと」などの有声休止)といった非言語現象に着目し,非言語現象を考慮した認識改善方法を研究することを予定していた。2021年度に,音声中の言い直しや言い淀み,フィラーを直接推定する「非言語情報ラベリング」手法を用いることで,字幕などで不要な発話内容を自動的に検出できることができた。非言語的な情報によって音声認識誤りが引き起こされることになるが,今回の提案手法によってそれを抑えることが分かり,全体的に音声認識精度が改善できることを示した。加えて,雑音除去処理や音声・音響データを扱う深層学習モデルの改善に資するデータ拡張手法も開発できた。したがって,予定どおり進展していると言える。 次に【話し方を特徴付ける特徴量の調査】については,2021年度初頭では,音響・韻律特徴に加えて,言語的な特徴を加えた話し方を決定付ける特徴量を開発という計画をたてていた。本年度は音声の流暢さのみに注目し,既存の音声コーパス(日本語話し言葉コーパス)を用いて流暢さが判定できる機械学習モデルのための特徴量を調査した。その結果,流暢さの判定には言い淀みや言い直しなどの非言語的な要因が大きな影響を与えていることなどが明らかとなった。これらの情報を使った流暢さを判定する深層学習モデルを開発し,話し方,特に流暢さを判定するモデルの開発を実施した。したがって,予定通り進捗していると言える。 最後に,【行動分析技術の開発】については,教室に設置してあるカメラやマイクから得られた情報を用い,対面授業における受講生の行動分析技術を開発することを目的としており,画像や音情報の時間的変化を捉えることが有効であることを明らかとした。
|
今後の研究の推進方策 |
今後は,2021年度の研究課題を引き続き継続する。今年度実施した各項目についての更なる発展技術の研究と,これらの成果の一部を用いて特に留学生向けの授業保障の枠組みの構築を検討する。 【非言語現象を考慮した音声認識技術による字幕・翻訳化】音声認識を阻害する要因である,年齢や性別など話者の多様性,音声の不明瞭性,雑音・残響環境,言い直し・淀み・フィラー(「えーっと」などの有声休止)といった非言語現象に着目し,非言語現象を考慮した認識改善方法を引き続き研究していく予定である。また,音声認識結果の整形方法とこれを使った翻訳字幕作成方法を検討していく。 【話し方を特徴付ける特徴量】話し方を特徴付ける特徴量を調査する。これまでの知見から,非言語的な情報と,音声の基本周波数のゆらぎなどの韻律特徴が話し方評価に有効であることが分かっている。そこで,音響・韻律特徴に加えて,言語的な特徴を加えた話し方を決定付ける特徴量を開発するために,大規模な被験者実験を行うためのツールの開発を行う。この被験者実験によって,音声から受ける印象についての調査とデータ収集を行う。 【行動分析技術の開発】引き続き,教室に設置してあるカメラやマイクから得られた情報を用い,対面授業における受講生の行動分析技術をブラッシュアップしていく。授業は時間とともに経過していくため,時間変化がとらえられるような特徴量の模索とそれを最適に処理できる深層学習モデルを考案する。 【成果とりまとめ】 開発した各要素技術や取り組みは,国内外の人工知能・音声・言語処理・教育工学関連の学会で逐次発表する。
|