研究課題/領域番号 |
16H02847
|
研究機関 | 京都大学 |
研究代表者 |
河原 達也 京都大学, 情報学研究科, 教授 (00234104)
|
研究分担者 |
秋田 祐哉 京都大学, 経済学研究科, 准教授 (90402742)
|
研究期間 (年度) |
2016-04-01 – 2019-03-31
|
キーワード | 音声認識 / コンテンツ・アーカイブ / 機械学習 / 字幕付与 |
研究実績の概要 |
放送大学の講義と学会の講演を主な対象として、音声認識の方式について様々な研究を進めながら、字幕付与を行うシステムの改善を行った。 (1) ニューラルネットワークに基づく音響モデルに関して、CTC(Connectionist Temporal Classification)やAttentionモデルなどのEnd-to-Endの方法を検討した。これらの方法は、従来のDNN-HMMにとってかわるものである。また、フィラーや言い淀みなどのイベントをCTCの枠組みで統合的に検出する方法も検討した。 (2) ニューラルネットワークに基づく言語モデルに関して、単語を単位とするAttentionモデルの枠組みでEnd-to-Endモデルとして実現する方式を検討した。この方式は、音響モデルと言語モデルを一体的に構成・最適化するもので、従来の階層的な方式と比べて、非常に単純なアーキテクチャーで、25倍以上の高速化を実現できる。認識精度についても種々の検討を行った結果、従来方式を上回る水準に到達しつつある。 (3) 字幕付与システム(http://caption.ist.i.kyoto-u.ac.jp/)を一般に公開し、試験運用を行った。本システムは放送大学のオンライン講義の字幕付与で使用された他、政策研究大学院大学や国立国語研究所へ提供した。 (4) 聴覚障害者の情報保障のためにリアルタイムで字幕を付与する方法を引き続き研究した。情報処理学会の複数の研究会(SIG-SLP, SIG-AAC)において、講演の字幕付与を実施した。 (5) 英語の講演コンテンツを対象として、聞き取りが困難な箇所に選択的に字幕付与を行うことでリスニング訓練を行うシステムについて研究した。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
1: 当初の計画以上に進展している
理由
論文発表に加えて、システムの一般公開や他研究機関への提供も行った。
|
今後の研究の推進方策 |
音声認識の方式について研究を継続しながら、システムの試験運用と改善を行う。
|