研究課題/領域番号 |
18K11431
|
研究種目 |
基盤研究(C)
|
配分区分 | 基金 |
応募区分 | 一般 |
審査区分 |
小区分61030:知能情報学関連
|
研究機関 | 静岡大学 |
研究代表者 |
甲斐 充彦 静岡大学, 工学部, 准教授 (60283496)
|
研究期間 (年度) |
2018-04-01 – 2023-03-31
|
研究課題ステータス |
完了 (2022年度)
|
配分額 *注記 |
4,290千円 (直接経費: 3,300千円、間接経費: 990千円)
2020年度: 1,300千円 (直接経費: 1,000千円、間接経費: 300千円)
2019年度: 1,430千円 (直接経費: 1,100千円、間接経費: 330千円)
2018年度: 1,560千円 (直接経費: 1,200千円、間接経費: 360千円)
|
キーワード | 自動音声認識 / 深層学習 / 長時間録音 / 自動修正 / 音声検索語検出 / 読み推定 / End-to-end型 / リアルタイム / 長時間収録 / 自動字幕 / End-to-end型音声認識 / 長時間収録音声 / End-to-end型音声認識モデル / 環境雑音 / 音声認識誤り修正 / 低コスト字幕修正 / 回り込み音声 / End-to-end音声認識モデル / 注目話者音声認識 / 話者音声分離 / 音声区間検出 / 言語知識拡充 / ディープニューラルネットワーク(DNN) / 情報保障 / 講義音声 / 半自動学習 |
研究成果の概要 |
自動音声認識(ASR)技術を長時間の自動字幕や検索等へ応用可能にするため、低コストで新しい用語等の音声言語知識の拡充を可能にするASR関連技術の開発を行なった。具体的には、リアルタイム出力可能なASRシステムを構築し、出力テキストを直接編集するのではなく修正語だけを入力する枠組みの半自動修正支援システムを実現した。修正語が録音中に現れた時刻を得るために用いる音声検索語検出技術では、かな読みを推論するEnd-to-end型ASRモデルを用いて誤認識箇所に多い未知語に対して検出精度を改善した。この他、雑音や複数話者が混在する音声を想定した話者分離・音声区間検出手法等の開発を行い、有効性を確認した。
|
研究成果の学術的意義や社会的意義 |
講義や会議などの長時間音声に対する自動音声認識(ASR)技術の適用において、近年のAI技術を用いた事例では、新しい語や話題を低コストで効率的に習得する手法が不足しており、全自動での字幕生成等では実用的な認識精度がまだ達成されていない。本研究課題では、リアルタイム性を重視して新しい語のテキスト情報のみを手動で提供する枠組みを提案し、ASR技術を基にした自動字幕や検索の精度を低コストで改善させる手法を提案した。これにより、ASR技術の応用可能性を一段と高められることを実証した。
|