研究課題/領域番号 |
21K12155
|
研究種目 |
基盤研究(C)
|
配分区分 | 基金 |
応募区分 | 一般 |
審査区分 |
小区分62030:学習支援システム関連
|
研究機関 | 和歌山大学 |
研究代表者 |
西村 竜一 和歌山大学, データ・インテリジェンス教育研究部門, 講師 (00379611)
|
研究分担者 |
原 直 岡山大学, ヘルスシステム統合科学学域, 助教 (50402467)
|
研究期間 (年度) |
2021-04-01 – 2025-03-31
|
研究課題ステータス |
交付 (2023年度)
|
配分額 *注記 |
4,030千円 (直接経費: 3,100千円、間接経費: 930千円)
2023年度: 1,300千円 (直接経費: 1,000千円、間接経費: 300千円)
2022年度: 1,690千円 (直接経費: 1,300千円、間接経費: 390千円)
2021年度: 1,040千円 (直接経費: 800千円、間接経費: 240千円)
|
キーワード | アクティブラーニング / オンライン授業 / 音情報処理 / 深層学習 / 早口音声 / オノマトペ / 若年話者判別 / ニューラルボコーダ / オンライン / 早口 / 話者匿名化 |
研究開始時の研究の概要 |
教育現場へのICTの導入が進み、アクティブラーニングのオンライン化が必要になる。本研究では、高等教育機関において、アクティブラーニングをオンライン展開するために必要となる要素技術開発(協調的ライブ記録、音響信号に基づく学生活動記録、多要素情報記録端末)を行う。特に、グループワークをオンラインで実施することを想定し、学生と学生、学生と指導者、指導者と指導者の間の意思疎通を支援する技術を開発する。
|
研究実績の概要 |
本研究では、アクティブラーニングをオンライン展開するために必要となる要素技術開発を行う。オンライン環境でのグループワークを想定し、学生と学生、学生と指導者、指導者と指導者の間の意思疎通を支援する技術を開発する。 授業収録動画を対象として、音素継続長を考慮した早口音声の話速変換法を検討した。音声認識プログラムJuliusの音素強制アライメントで取得した音素継続長を基準とした早口音声の話速修正法を提案した。見本音声の音素継続長や品詞、基本周波数の自然下降、音圧や音高の変化割合を条件とした変換手法を実装し、主観評価で比較した。その結果、母音に限る見本音声の音素継続長に揃えた伸長処理が適当であることを確認した。 オンラインでの状況可視化を担う環境音の自動オノマトペ変換の開発を行った。End-to-End型の深層学習モデルとしてConformerとHuBERTを採用し、105種類の環境音にオノマトペを定義したデータセットを使用して学習した。HuBERTの場合, オノマトペの出力の適合率が82.8%となった(Conformerは81.0%)。 複数話者テキスト音声合成において、参照音声と合成音声の類似度を算出した結果からモデルの学習に含まれない未知話者の発話を参照音声とした場合でも、話者性を反映した合成音声の出力が可能であることを確認した。また、モデル学習に英語コーパスを用いたクロスリンガル音声合成の試作を行った。 深層ニューラルネットワーク(DNN)を用いて、環境音からのサウンドスケープ特徴の推定、主観的騒音度合いの推定を行い評価した。また、混合ガウスモデル(GMM)やi-vectorを用いた環境音からの賑わい度推定法について整理を行った。若年話者判別タスクにおいて提案した話者年齢埋め込みベクトル(Age-vector)を年齢層識別タスクに拡張するための検討を開始した。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
3: やや遅れている
理由
本事業でテーマとするオンライン(遠隔)教育に対する社会的な考え方の変化、学内の方針(対面教育の推奨)や制度の変更等もあり、本事業における学生を協力者とする実験等の内容、実施計画について見直しを行った。加えて、急激な物価高騰や円安等により、必用な物品の手配、旅費の確保等が難しくなっていることもあり、当初の予想を大幅に超える状況変化が生じた。そのため、「やや遅れている。」と判断した。 ただし、本事業の周辺技術の開発は着実に進めることができており、複数話者テキスト音声合成技術や深層学習を用いた音源分離等に新たな成果を得ている。
|
今後の研究の推進方策 |
研究計画の見直しに伴って本事業を1年間延長した。課題の達成を目指し、次に示す要素技術開発と評価を中心に研究を進める。 深層学習を用いた音源分離手法について、深層学習アルゴリズム、モデルの学習、複数モデルの適用方法等の見直しを行い、出力分離音の高品質化を検討する。同技術を環境音の自動オノマトペ変換技術と結合することによって、オンライン会議システムでの参加状況可視化システムの試作を行う。また、これらを包括するように、多要素情報記録端末のプロトタイプシステムを開発し、実環境利用についての検証を行う。カメラで撮影した顔画像に加えて、参加者の動作等に起因するよう音響信号を抽象的に表現したアイコンの提示機能を導入する。 話者年齢埋め込みベクトル(Age-vector)に基づいた話者年齢層識別タスクにGAN(敵対的生成ネットワーク)等を導入することで、高精度化と利便性の向上を検討する。
|