2018 Fiscal Year Annual Research Report
Automatic speech recognition based on semi-autonomous learning for captioning lectures
Project/Area Number |
16H02847
|
Research Institution | Kyoto University |
Principal Investigator |
河原 達也 京都大学, 情報学研究科, 教授 (00234104)
|
Co-Investigator(Kenkyū-buntansha) |
秋田 祐哉 京都大学, 経済学研究科, 准教授 (90402742)
|
Project Period (FY) |
2016-04-01 – 2019-03-31
|
Keywords | 音声認識 / コンテンツ・アーカイブ / 機械学習 / 字幕付与 |
Outline of Annual Research Achievements |
新たな音声認識のモデル・アルゴリズムについて研究するとともに、講演や講義を対象とした字幕付与のシステムの改善を行った。 (1) ニューラルネットワークに基づいて音響モデルと言語モデルを一体的にモデル化し、入力音声から認識結果の単語列を直接求めるEnd-to-End音声認識を実現した。特に単語を単位としたモデルを安定して学習する方式を提案し、従来の一般的な音声認識手法と比較して、高い認識精度を実現しながら、処理時間を1/30以下にできることを示した。 (2) 上記のEnd-to-End音声認識システムは語彙も含めて学習データに特化する問題があるので、新しいドメインに適応する様々な方法を検討した。特に、音声合成によって疑似的に学習用音声データを生成する方法を提案し、実現可能性を示した。 (3) 講演・講義の音声ファイルに字幕を付与するシステム(http://caption.ist.i.kyoto-u.ac.jp/)を引き続き試験運用した。本システムは、政策研究大学院大学や国立国語研究所などでも利用されている。 (4) 聴覚障害者の情報保障のためにリアルタイムで字幕を付与するソフトIPtalk(http://www.s-kurita.net/)に、本プロジェクトで開発してきた音声認識ソフトを統合して一般に公開した。本プロジェクト及びこのソフトの紹介を兼ねて、2018年12月に京都大学において『聴覚障害者のための字幕付与技術』シンポジウムを開催した。聴覚障害者や要約筆記者などを含めて143名の参加者があり、当該技術の展望について様々な意見交換を行った。
|
Research Progress Status |
平成30年度が最終年度であるため、記入しない。
|
Strategy for Future Research Activity |
平成30年度が最終年度であるため、記入しない。
|