研究課題
新たな音声認識のモデル・アルゴリズムについて研究するとともに、講演や講義を対象とした字幕付与のシステムの改善を行った。(1) ニューラルネットワークに基づいて音響モデルと言語モデルを一体的にモデル化し、入力音声から認識結果の単語列を直接求めるEnd-to-End音声認識を実現した。特に単語を単位としたモデルを安定して学習する方式を提案し、従来の一般的な音声認識手法と比較して、高い認識精度を実現しながら、処理時間を1/30以下にできることを示した。(2) 上記のEnd-to-End音声認識システムは語彙も含めて学習データに特化する問題があるので、新しいドメインに適応する様々な方法を検討した。特に、音声合成によって疑似的に学習用音声データを生成する方法を提案し、実現可能性を示した。(3) 講演・講義の音声ファイルに字幕を付与するシステム(http://caption.ist.i.kyoto-u.ac.jp/)を引き続き試験運用した。本システムは、政策研究大学院大学や国立国語研究所などでも利用されている。(4) 聴覚障害者の情報保障のためにリアルタイムで字幕を付与するソフトIPtalk(http://www.s-kurita.net/)に、本プロジェクトで開発してきた音声認識ソフトを統合して一般に公開した。本プロジェクト及びこのソフトの紹介を兼ねて、2018年12月に京都大学において『聴覚障害者のための字幕付与技術』シンポジウムを開催した。聴覚障害者や要約筆記者などを含めて143名の参加者があり、当該技術の展望について様々な意見交換を行った。
平成30年度が最終年度であるため、記入しない。
すべて 2019 2018 その他
すべて 雑誌論文 (4件) (うち査読あり 4件、 オープンアクセス 1件) 学会発表 (5件) (うち国際学会 5件、 招待講演 1件) 備考 (2件)
IEEE/ACM Trans. Audio, Speech & Language Processing
巻: 27 ページ: (to appear)
https://doi.org/10.1109/TASLP.2019.2907015
Computer Speech and Language
巻: 49 ページ: 17-36
https://doi.org/10.1016/j.csl.2017.11.001
APSIPA Trans. Signal & Information Processing
巻: 7-e9 ページ: 1-16
https://doi.org/10.1017/ATSIP.2018.11
人工知能学会論文誌
巻: 33 ページ: C--I37_1--9
https://doi.org/10.1527/tjsai.C-I37
http://www.sap.ist.i.kyoto-u.ac.jp/jimaku/
http://caption.ist.i.kyoto-u.ac.jp/