研究課題
基盤研究(C)
頑強な音声認識技術を、ビデオ教材の作成や利用に応用した場合、どの程度の改善効果があるかを、実際にシステムを開発し、調査した。調査結果を以下に述べる。1.音声認識における音声モデルの改善本研究では、実際の講義音声を対象としているため、雑音対策が重要となる。評価試験の結果、人間の聴覚特性を利用した新しい音声認識特徴量は、一般に使用されている特徴量に比べ、SNR 10dBで約5%、SNR 0dBで約6%音声認識率が改善されることを確認した。2.音声情報によるビデオシーン分割講義ビデオ中の音声情報により、ビデオシーンを自動分割する方法を検討した。ビデオシーンの分割には、独立成分分析を用いたトピック表現(指標)とポーズ情報を利用した。シーンの対応付けには動的計画法を用い、隣接するシーンの余弦の総和が最小になるように最適化する方法を提案した。5人の教員による編集前の講義ビデオを用いて実験を行った結果、提案手法はHearst法と同等以上の分割性能を持ちながら、分割数を自由に設定できることがわかった。また、音声認識結果を用いても書き起しテキストと同程度のシーン分割性能が得られることが確認された。3.ビデオ教材作成支援システムの開発・評価本研究の方式により話題ごとに自動分割されたビデオシーンを選択するだけでビデオ教材が作成できるビデオ教材作成支援システムを開発し、システム及びそのソースコードを公開した。評価試験の結果、75%の被験者が自動シーン分割を行う方が使いやすいと回答した。ビデオ教材作成時間に関しては、音声情報により推定された自動シーン分割情報を用いることによって平均編集時間が1割以上削減できることがわかった。編集後のビデオ編集精度については、自動シーン分割し編集時間が削減しているにも関わらず、これまでと同等の精度を維持できることを確認した。
すべて 2005 2004 2003 2002 その他
すべて 雑誌論文 (28件) 文献書誌 (8件)
The IEICE Trans, on information and Systems Vol.J88-DINo.5(In Printing)
Japanese Colleges of Technology Education Journal No.27
ページ: 727-732
The 18th International Congress on Acoustics Vol.III
ページ: 2023-2026
110003295670
Japanese Society for Engineering Education
ページ: 151-152
Meeting of research and education for information processing in the college of technology No.24
ページ: 81-84
Japan Acoustic society Fall Meeting I
ページ: 37-38
Forum on Information Technology 2004 Vol.2
ページ: 353-356
Proceedings of International Conference on Spoken Language Processing Vol.III
ページ: 1821-1824
The 18th International Congress on Acoustics III
日本工学教育協会 平成16年度工学・工業教育研究講演会 講演論文集
高等専門学校情報処理教育委員会 第24回研究発表会論文集 24
日本音響学会2004年秋季研究発表会講演論文集 I
第3回情報科学技術フォーラム 2
Proceedings of International Conference on Spoken Language Processing III
電子情報通信学会 論文誌DI J88-DI・5(印刷中)
110003203369
日本音響学会2003年春季研究発表会講演論文集 I
ページ: 187-188
10018035171
SPEECH DYNAMICS BY EAR, EYE, MOUTH AND MACHINE, An Interdisciplinary Workshop(電子情報通信学会技術研究報告) 103・155
ページ: 67-72
40020280679
電子情報通信学会技術研究報告 103・220
ページ: 7-12
高等専門学校 情報処理教育研究員会 情報処理教育研究発表会論文集 23
ページ: 98-101
日本音響学会 2003年秋季研究発表会 講演論文集 I
ページ: 181-182
Japan Acoustic society Spring Meeting I
Speech Dynamics by Ear, Eye, Mouth and Machine, An Interdisciplinary Workshop, Technical Report of IEICE Vol.103No.155
Technical Report of IEICE Vol.103No.220
Meeting of research and education for information processing in the college of technology No.23
Technical Report of the Japanese Society for Artificial Intelligence SIG-SLUD-A302
ページ: 9-14
電子情報通信学会技術研究報告 102・248
ページ: 41-46
110004027069
Technical Report of IEICE Vol.102No.248