研究課題/領域番号 |
21K13641
|
研究種目 |
若手研究
|
配分区分 | 基金 |
審査区分 |
小区分09070:教育工学関連
|
研究機関 | 阿南工業高等専門学校 |
研究代表者 |
太田 健吾 阿南工業高等専門学校, 創造技術工学科, 准教授 (80712801)
|
研究期間 (年度) |
2021-04-01 – 2025-03-31
|
研究課題ステータス |
交付 (2023年度)
|
配分額 *注記 |
4,680千円 (直接経費: 3,600千円、間接経費: 1,080千円)
2023年度: 1,690千円 (直接経費: 1,300千円、間接経費: 390千円)
2022年度: 1,560千円 (直接経費: 1,200千円、間接経費: 360千円)
2021年度: 1,430千円 (直接経費: 1,100千円、間接経費: 330千円)
|
キーワード | 音声認識 / 音声要約 / ソーシャルアノテーション / 教育工学 / オンライン講義 / 講義コンテンツ |
研究開始時の研究の概要 |
本研究では、オンライン講義の動画やライブ配信に付与された学生のリアクション(投稿コメントや「いいね」など)と、講師の作成した講義コンテンツ(講義スライドやレジュメなど)を学習データに活用することで、講義音声の音声認識(自動書き起こし)と自動要約(重要な部分の自動抽出)を高精度化する。音声認識の結果を講義動画の字幕として提示したり、自動要約の結果を学生の復習用の教材として提示することにより、オンライン講義コンテンツの再利用性を高め、学生の学びを活性化する。
|
研究実績の概要 |
本研究では、オンライン講義の動画やライブ配信に付与された学生のリアクション(投稿コメントや「いいね」など)と、講師の作成した講義コンテンツ(講義スライドやレジュメなど)を学習データに活用することで、講義音声の音声認識(自動書き起こし)と自動要約(重要な部分の自動抽出)を高精度化することを目指している。2023年度は、以下の研究内容を実施した。 【内容1】本研究の対象とする講義音声のような自由発話では、フィラーや言い淀みをはじめとする非流暢的音響特徴が音声認識における誤認識の原因となる。このような話し言葉音声に対する音声認識を高精度化するために、昨年度に提案した、非流暢ラベルを大規模言語モデルによって疑似的に挿入する手法に基づいて、話し言葉の特性と講義等に頻出する専門用語等を同時に考慮できる音声認識用言語モデルを構築し、これをEnd-to-End型音声認識システムにおいてShallow Fusionによって音響モデルと併用することで、学会講演音声を高精度に認識できることを示した。 【内容2】オンライン講義の動画やライブ配信において、視聴者のリアクション(投稿コメント)を模擬する言語生成モデルを構築した。提案モデルでは、動画や配信の発話内容をOpenAI Whisperによって音声認識し、また、音声基盤モデルに基づく感情認識モデルによって発話に込められた感情を認識する。両者の情報を入力としてファインチューニングされたGPT-NeoXにより、視聴者の投稿コメントを模擬的に生成することができた。 【内容3】講義音声から音響特徴と言語特徴に基づいて重要箇所を検出する要約モデルを構築した。wav2vec 2.0およびword2vecによって抽出された音声・言語の埋め込み表現を入力とする深層学習モデルにより、視聴者が多く視聴すると思われる重要箇所を検出することができる可能性を確認した。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
【進捗1】オンライン講義の講義音声を対象とする音声認識では、フィラーや言い淀みといった話し言葉特有の問題と、専門性の高い発話内容(専門用語の頻出や数式の読み上げなど)が大きな問題となる。昨年度は、これまでに提案してきた、これら2つの問題に対応する手法をさらに発展させ、有効性を示すことができた。これらの成果は、それぞれ査読付き国際会議で発表することができた。 【進捗2】オンライン講義の動画やライブ配信において、視聴者のリアクション(投稿コメント)は重要な情報となる。こうした視聴者による投稿コメントを疑似的に言語生成システムを音声・言語基盤モデルに基づいて構築し、実際のコメントをある程度模擬することができることを確認した。この成果は査読付き国内学会で発表することができた。 【進捗3】講義音声から音響特徴と言語特徴に基づいて重要箇所を検出する要約モデルを構築し、実際の教育動画コンテンツに対して、視聴者が多く視聴すると思われる重要箇所を検出することができる可能性を確認した。この成果は査読付き国内学会で発表することができた。
以上より、本研究の最終目標となるシステムのベースラインや基盤が整った状態にあることから、おおむね順調に進展していると考えられる。
|
今後の研究の推進方策 |
今後は、これまでに構築したソーシャルアノテーションを模擬するモデルや音声要約モデルをさらに発展させ、最終的な提案システムの構築と評価を目指していく。 ソーシャルアノテーションを模擬するモデルについては、投稿コメント以外の「いいね」等のリアクションも模擬し、コメントと「いいね」の予測をマルチタスク学習によって同時に最適化する手法についても検討を行う。また、Web上の教育コンテンツを大規模にクローリング等によって収集し、それらに対するリアクションのデータを活用して、モデルの高精度化を図る。 音声要約モデルについては、前述のソーシャルアノテーション生成モデルを学習データのデータ拡張に活用し、また、より大規模な音声言語基盤モデルとして、日本語に特化したGPT等の言語基盤モデルやHuBERT等の音声基盤モデルをベースとすることで、さらなる高精度化を図っていく。
|