研究課題/領域番号 |
21K12155
|
研究機関 | 和歌山大学 |
研究代表者 |
西村 竜一 和歌山大学, データ・インテリジェンス教育研究部門, 講師 (00379611)
|
研究分担者 |
原 直 岡山大学, ヘルスシステム統合科学学域, 助教 (50402467)
|
研究期間 (年度) |
2021-04-01 – 2024-03-31
|
キーワード | アクティブラーニング / オンライン授業 / 音情報処理 / 深層学習 / 若年話者判別 / ニューラルボコーダ |
研究実績の概要 |
本研究では、アクティブラーニングをオンライン展開するために必要となる要素技術開発を行う。特に、グループワークをオンラインで実施することを想定し、学生と学生、学生と指導者、指導者と指導者の間の意思疎通を支援する技術を開発する。 昨年度に引き続き、対話によるフレキシブルな意思疎通を実現するための話者判別法の検討を行った。深層学習を用いた若年話者判別タスクに深層話者埋め込みベクトル(x-vector)を導入した。加えて、x-vectorを改良した話者年齢埋め込みベクトル(Age-vector)を提案した。実験を通じて従来法からの性能改善を確認した。 HiFi-GANを用いた帯域拡張による音声信号の高品質化を評価し、複数話者テキスト音声合成のためのニューラルボコーダを大量に手に入る音声認識コーパスに基づいて構築する方法を検討した。 波形伸縮処理を用いた早口講義音声の修正法を検討した。音素単位に分割した録音済の講義音声波形に対して、深層学習モデルが出力するTTS合成音声の音素継続長を参照し、時間方向の伸縮処理を適用した。比較実験の結果、母音に限り伸長処理を適用した場合の「発話速度の適切さ」が改善することを確認した。 深層学習を用いた音源分離について、録音したライブ音源に含まれる雑音を抑圧する深層学習モデル(Conv-TasNet)を評価した。742種類の楽曲と92種類の雑音の組合せによる混合音68,264種類から深層学習モデルを構築し、分離性能を評価した。 ウェブカメラ画像を用いたオンライン講義受講態度の可視化システムを試作した。本システムでは、仮想カメラ機能を用いて、ウェブカメラの顔画像の代わりに、撮影した画像を抽象化したアイコンをビデオ会議システム上に提示する。オンラインで授業に参加する受講生のPC画面注視状態とジェスチャー(マル・バツ)をウェブカメラ画像から自動検出する。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
3: やや遅れている
理由
新型コロナウイルス感染症の影響は少なくなったが、その後のオンライン(遠隔)教育に対する社会的な考え方の変化(対面教育の推奨)や学内制度の変更等もあり、学生を協力者とする実験の実施について見直しを行っている。要素技術の開発には、音声や音楽、雑音、画像等の既存データベースを活用しているが、グループワークを伴ったデータの収集、分析ができていないことから「やや遅れている。」と判断した。ただし、関連する要素技術の開発においては、複数話者テキスト音声合成や音声信号の広帯域化(高品質化)、深層学習を用いた音源分離等に新たな成果を得ることができている。
|
今後の研究の推進方策 |
本課題の達成を目指し、次に示す要素技術開発と評価を中心に研究を進める。 多要素情報記録端末の開発として、深層学習に基づいた音源分離と音響信号の高品質化技術開発を組み合わせたプロトタイプシステムを実装し、実環境利用の可能性について検証する。 早口を含む講義音声の聴き取りやすさの向上のため、音声分析変換合成手法を応用した波形伸縮技術に関する検討を追加する。収録済講義音声に提案法を適用し、評価する。 CRNNベースの環境音検出手法をシステムに導入し、評価を行う。 オンライン会議システムにおける参加態度の可視化手法として、カメラで撮影した顔画像に加えて、参加者の動作に起因する音響信号を抽象的に表現したアイコンの導入を試みる。
|
次年度使用額が生じた理由 |
当初の計画にあったデータ処理用GPU搭載Linuxワークステーションの購入を見送っている。これは価格上昇によって、計上していた金額では購入が困難になったためである。これまでは学内の共有サーバを活用して研究を実施することができたが、計算処理量が増加し、本研究の占有サーバを必要とすることも多くなってきたため、翌年度分として請求した助成金と合わせて予算を確保し、購入する予定である。
|