研究課題/領域番号 |
21K13641
|
研究機関 | 阿南工業高等専門学校 |
研究代表者 |
太田 健吾 阿南工業高等専門学校, 創造技術工学科, 准教授 (80712801)
|
研究期間 (年度) |
2021-04-01 – 2024-03-31
|
キーワード | 音声認識 / 音声要約 / ソーシャルアノテーション / 教育工学 / オンライン講義 / 講義コンテンツ |
研究実績の概要 |
本研究では、オンライン講義の動画やライブ配信に付与された学生のリアクション(投稿コメントや「いいね」など)と、講師の作成した講義コンテンツ(講義スライドやレジュメなど)を学習データに活用することで、講義音声の音声認識(自動書き起こし)と自動要約(重要な部分の自動抽出)を高精度化することを目指している。2021年度は、以下の研究内容を実施した。 【内容1】講義音声のような話し言葉を対象とする音声認識では、フィラー(「えっと」「あのー」といった、場繋ぎ的に発声される間投詞)や言い淀みをはじめとする非流暢的音響特徴が誤認識の主要な原因の一つになっている。こうした話し言葉特有の問題をEnd-to-End型の音声認識で考慮するために、非流暢ラベルを用いる手法を提案した。具体的には、音声認識モデルの学習に用いる書き起こしデータのうち、フィラーや言い淀みに対応する箇所をそれぞれ単一のシンボルに置き換えた上で、文字単位の音声認識モデルを Joint CTC-Attention Transformer で構築した。これにより、非流暢な入力音声に対し、言い淀みを整形した認識結果を得ることができる。 【内容2】講義音声のような専門性の高い発話内容を含む音声を対象とする音声認識では、認識対象の話題(ターゲットドメイン)に関連した専門用語などを高精度に認識するために、ターゲットドメインの学習データと、一般的なドメインの大規模な学習データをそれぞれ効果的に利用することが重要となる。このようなデータを併用する方法として、ターゲットドメインのデータから学習した言語モデルを音声認識モデルと統合する Shallow Fusion などが提案されてきたが、効果は限定的であった。そこで、Shallow Fusion を確率的に改善した Density Ratio Approach の考え方を応用した手法を提案した。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
オンライン講義の講義音声を対象とする音声認識では、フィラーや言い淀みといった話し言葉特有の問題と、専門性の高い発話内容(専門用語の頻出や数式の読み上げなど)が大きな問題となる。初年度である2021年度は、これら2つの問題に対応する手法を提案し、それぞれ国内会議および査読付き国際会議で発表することができた。話し言葉特有の問題については、非流暢ラベルを用いた手法を導入することで、音声認識モデルがフィラーや言い淀みの出現傾向などを正しく学習できていることが確認できており、この認識結果からラベル部分を削除することで、非流暢発話から言い淀みが整形された目的文を獲得できると考えられる。また、専門性の高い発話に対応するためのターゲットドメインの学習データの活用法については、Density Ratio Approachを応用した手法を導入することで、既存手法とほぼ同等の音声認識精度が得られているが、すでに高精度な認識が可能な評価タスクであったことから、効果が限定的であった可能性があると考えられる。現在、より高難度の認識タスクにおける評価を行う予定であり、その準備が整いつつある。以上より、おおむね順調に進展していると考えられる。 ただし、今後の研究で利用するためのオンライン講義やソーシャルアノテーションのデータ収集については、新型コロナウイルス感染症の感染拡大による影響の予測が難しい状況にあり、柔軟に対応していく必要があると考えている。
|
今後の研究の推進方策 |
2022年度は、これまでに提案してきた、講義音声を高精度に認識するための基礎技術を、実際の講義音声データを対象とした評価実験によって評価していく。また、ソーシャルアノテーションシステムを用いて、オンライン講義に対する学生のリアクションデータを収集し、それらをEnd-to-End音声認識モデルの学習に組み込む手法について検討する。ただし、前述の通り、新型コロナウイルス感染症の感染拡大による影響によっては、データ収集が困難となる場合が考えられるため、状況に応じて柔軟に研究計画を修正していく。また、これらの成果を、音声言語処理・自然言語処理関連の国内会議および国際会議で発表する。
|
次年度使用額が生じた理由 |
新型コロナウィルスの感染拡大の影響により、参加予定であった学会の現地開催が中止されたため、旅費の使用額に変更があった。一方で、本研究の実施機関においては対面授業が優先的に実施されたことから、予定していたオンライン講義およびソーシャルアノテーションシステムを用いたデータ収集を行うことができなかった。次年度の学会参加費および旅費、また、データ収集等に活用する予定である。
|