• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 前のページに戻る

半自律的な音声認識による講演・講義への字幕付与

研究課題

研究課題/領域番号 16H02847
研究種目

基盤研究(B)

配分区分補助金
応募区分一般
研究分野 知覚情報処理
研究機関京都大学

研究代表者

河原 達也  京都大学, 情報学研究科, 教授 (00234104)

研究分担者 秋田 祐哉  京都大学, 経済学研究科, 准教授 (90402742)
研究協力者 広瀬 洋子  
研究期間 (年度) 2016-04-01 – 2019-03-31
研究課題ステータス 完了 (2018年度)
配分額 *注記
16,250千円 (直接経費: 12,500千円、間接経費: 3,750千円)
2018年度: 5,070千円 (直接経費: 3,900千円、間接経費: 1,170千円)
2017年度: 5,070千円 (直接経費: 3,900千円、間接経費: 1,170千円)
2016年度: 6,110千円 (直接経費: 4,700千円、間接経費: 1,410千円)
キーワード音声認識 / コンテンツ・アーカイブ / 機械学習 / 字幕付与 / 情報保障
研究成果の概要

入力音声から単語系列に直接写像するEnd-to-Endの枠組みに基づく音声認識を提案し、従来の音声認識手法と比較して、処理時間を大幅に(1/30以下)に削減しながら、高い認識精度を実現できることを示した。また、講演・講義を対象として字幕を付与するシステム(http://caption.ist.i.kyoto-u.ac.jp/)を構築・試験運用した。さらに、パソコンでも動作する音声認識パッケージを構成し、聴覚障害者の情報保障のためにリアルタイムで字幕を付与するソフトIPtalk(http://www.s-kurita.net/)に統合して一般に公開した。

研究成果の学術的意義や社会的意義

障害者差別解消法の施行に伴い、講義や講演において聴覚障害者に対する情報保障、すなわち字幕付与が求められているが、現状では量と質の両方において十分でない。これを支援するための音声認識技術の研究開発を行った。新たな深層学習に基づくモデルを導入することで、認識精度と速度の両方で大きな改善が得られた。サーバベースで音声ファイルに字幕を付与するシステム(http://caption.ist.i.kyoto-u.ac.jp/)に加えて、パソコン要約筆記で一般的に用いられているIPtalkにも音声認識の組込みを行い、一般公開した。また、『聴覚障害者のための字幕付与技術』シンポジウムを開催した。

報告書

(4件)
  • 2018 実績報告書   研究成果報告書 ( PDF )
  • 2017 実績報告書
  • 2016 実績報告書
  • 研究成果

    (29件)

すべて 2019 2018 2017 2016 その他

すべて 雑誌論文 (10件) (うち国際共著 4件、 査読あり 10件、 オープンアクセス 6件) 学会発表 (15件) (うち国際学会 11件、 招待講演 4件) 備考 (4件)

  • [雑誌論文] Unsupervised speech enhancement based on multichannel NMF-informed beamforming for noise-robust automatic speech recognition2019

    • 著者名/発表者名
      K.Shimada, Y.Bando, M.Mimura, K.Itoyama, K.Yoshii, and T.Kawahara
    • 雑誌名

      IEEE/ACM Trans. Audio, Speech & Language Processing

      巻: 27 号: 5 ページ: 960-971

    • DOI

      10.1109/taslp.2019.2907015

    • NAID

      120006621539

    • 関連する報告書
      2018 実績報告書
    • 査読あり / 国際共著
  • [雑誌論文] 人間型ロボットのキャラクタ表現のための対話の振る舞い制御モデル2018

    • 著者名/発表者名
      山本賢太・井上昂治・中村静・高梨克也・河原達也
    • 雑誌名

      人工知能学会論文誌

      巻: 33 号: 5 ページ: C-I37_1-9

    • DOI

      10.1527/tjsai.C-I37

    • NAID

      130007481111

    • ISSN
      1346-0714, 1346-8030
    • 年月日
      2018-09-01
    • 関連する報告書
      2018 実績報告書
    • 査読あり / オープンアクセス
  • [雑誌論文] Exploiting automatic speech recognition errors to enhance partial and synchronized caption for facilitating second language listening2018

    • 著者名/発表者名
      M.Mirzaei, K.Meshgi, and T.Kawahara
    • 雑誌名

      Computer Speech and Language

      巻: 49 ページ: 17-36

    • DOI

      10.1016/j.csl.2017.11.001

    • NAID

      120006605393

    • 関連する報告書
      2018 実績報告書
    • 査読あり
  • [雑誌論文] Engagement recognition by a latent character model based on multimodal listener behaviors in spoken dialogue2018

    • 著者名/発表者名
      K.Inoue, D.Lala, K.Takanashi, and T.Kawahara
    • 雑誌名

      APSIPA Trans. Signal & Information Processing

      巻: 7-e9 号: 1 ページ: 1-16

    • DOI

      10.1017/atsip.2018.11

    • 関連する報告書
      2018 実績報告書
    • 査読あり / オープンアクセス / 国際共著
  • [雑誌論文] Speech enhancement based on Bayesian low-rank and sparse decomposition of multichannel magnitude spectrograms2018

    • 著者名/発表者名
      Y.Bando, K.Itoyama, M.Konyo, S.Tadokoro, K.Nakadai, K.Yoshii, T.Kawahara, and H.G.Okuno
    • 雑誌名

      IEEE/ACM Trans. Audio, Speech & Language Processing

      巻: 26 号: 2 ページ: 215-230

    • DOI

      10.1109/taslp.2017.2772340

    • 関連する報告書
      2017 実績報告書
    • 査読あり
  • [雑誌論文] 潜在キャラクタモデルによる聞き手のふるまいに基づく対話エンゲージメントの推定2018

    • 著者名/発表者名
      井上昂治, Divesh Lala, 吉井和佳, 高梨克也, 河原達也
    • 雑誌名

      人工知能学会論文誌

      巻: 33 号: 1 ページ: DSH-F_1-12

    • DOI

      10.1527/tjsai.DSH-F

    • NAID

      130006302231

    • ISSN
      1346-0714, 1346-8030
    • 関連する報告書
      2017 実績報告書
    • 査読あり / オープンアクセス
  • [雑誌論文] Partial and synchronized captioning: A new tool to assist learners in developing second language listening skill2017

    • 著者名/発表者名
      M.Mirzaei, K.Meshgi, Y.Akita, and T.Kawahara
    • 雑誌名

      ReCALL Journal

      巻: 29 号: 2 ページ: 178-199

    • DOI

      10.1017/s0958344017000039

    • 関連する報告書
      2017 実績報告書
    • 査読あり
  • [雑誌論文] Articulatory Modeling for Pronunciation Error Detection without Non-Native Training Data Based on DNN Transfer Learning2017

    • 著者名/発表者名
      R.Duan, T.Kawahara, M.Dantsuji, and J.Zhang
    • 雑誌名

      IEICE Transactions on Information and Systems

      巻: E100.D 号: 9 ページ: 2174-2182

    • DOI

      10.1587/transinf.2017EDP7019

    • NAID

      130006038443

    • ISSN
      0916-8532, 1745-1361
    • 関連する報告書
      2017 実績報告書
    • 査読あり / オープンアクセス / 国際共著
  • [雑誌論文] Semi-supervised acoustic model training by discriminative data selection from multiple ASR systems' hypotheses2016

    • 著者名/発表者名
      S.Li, Y.Akita, and T.Kawahara
    • 雑誌名

      IEEE/ACM Trans. Audio, Speech & Language Processing

      巻: 24 号: 9 ページ: 1524-1534

    • DOI

      10.1109/taslp.2016.2562505

    • NAID

      120006027087

    • 関連する報告書
      2016 実績報告書
    • 査読あり / オープンアクセス
  • [雑誌論文] 傾聴対話システムのための言語情報と韻律情報に基づく多様な形態の相槌の生成2016

    • 著者名/発表者名
      山口貴史・井上昂治・吉野幸一郎・高梨克也・Nigel G. Ward・河原達也
    • 雑誌名

      人工知能学会論文誌

      巻: 31 号: 4 ページ: C-G31_1-10

    • DOI

      10.1527/tjsai.C-G31

    • NAID

      130005254929

    • ISSN
      1346-0714, 1346-8030
    • 関連する報告書
      2016 実績報告書
    • 査読あり / オープンアクセス / 国際共著
  • [学会発表] Acoustic-to-word attention-based model complemented with character-level CTC-based model2018

    • 著者名/発表者名
      S.Ueno, H.Inaguma, M.Mimura, and T.Kawahara
    • 学会等名
      Proc. IEEE-ICASSP
    • 関連する報告書
      2018 実績報告書
    • 国際学会
  • [学会発表] An end-to-end approach to joint social signal detection and automatic speech recognition2018

    • 著者名/発表者名
      H.Inaguma, M.Mimura, K.Inoue, K.Yoshii, and T.Kawahara
    • 学会等名
      Proc. IEEE-ICASSP
    • 関連する報告書
      2018 実績報告書
    • 国際学会
  • [学会発表] Leveraging sequence-to-sequence speech synthesis for enhancing acoustic-to-word speech recognition2018

    • 著者名/発表者名
      M.Mimura, S.Ueno, H.Inaguma, S.Sakai, and T.Kawahara
    • 学会等名
      Proc. IEEE Spoken Language Technology Workshop (SLT)
    • 関連する報告書
      2018 実績報告書
    • 国際学会
  • [学会発表] Improving OOV detection and resolution with external language models in acoustic-to-word ASR2018

    • 著者名/発表者名
      H.Inaguma, M.Mimura, S.Sakai, and T.Kawahara
    • 学会等名
      Proc. IEEE Spoken Language Technology Workshop (SLT)
    • 関連する報告書
      2018 実績報告書
    • 国際学会
  • [学会発表] Spoken dialogue system for a human-like conversational robot ERICA2018

    • 著者名/発表者名
      T.Kawahara
    • 学会等名
      Proc. Int'l Workshop Spoken Dialogue Systems (IWSDS)
    • 関連する報告書
      2018 実績報告書
    • 国際学会 / 招待講演
  • [学会発表] Semi-supervised ensemble DNN acoustic model training2017

    • 著者名/発表者名
      S.Li, X.Lu, S.Sakai, M.Mimura, and T.Kawahara
    • 学会等名
      IEEE-ICASSP
    • 発表場所
      米国・ニューオーリンズ
    • 年月日
      2017-03-05
    • 関連する報告書
      2016 実績報告書
    • 国際学会
  • [学会発表] Effective articulatory modeling for pronunciation error detection of L2 learner without non-native training data2017

    • 著者名/発表者名
      R.Duan, T.Kawahara, M.Dantsuji, and J.Zhang
    • 学会等名
      IEEE-ICASSP
    • 発表場所
      米国・ニューオーリンズ
    • 年月日
      2017-03-05
    • 関連する報告書
      2016 実績報告書
    • 国際学会
  • [学会発表] Social signal detection in spontaneous dialogue using bidirectional LSTM-CTC2017

    • 著者名/発表者名
      H.Inaguma, K.Inoue, M.Mimura, and T.Kawahara
    • 学会等名
      INTERSPEECH
    • 関連する報告書
      2017 実績報告書
    • 国際学会
  • [学会発表] Listening difficulty detection to foster second language listening with the partial and synchronized caption system2017

    • 著者名/発表者名
      M.Mirzaei, K.Meshgi, and T.Kawahara
    • 学会等名
      EUROCALL
    • 関連する報告書
      2017 実績報告書
  • [学会発表] Modeling difficulties of second language learners using speech technology2017

    • 著者名/発表者名
      T.Kawahara
    • 学会等名
      Seoul International Conference on Speech Sciences (SICSS)
    • 関連する報告書
      2017 実績報告書
    • 招待講演
  • [学会発表] Automatic meeting transcription system for the Japanese Parliament (Diet)2017

    • 著者名/発表者名
      T.Kawahara
    • 学会等名
      APSIPA ASC
    • 関連する報告書
      2017 実績報告書
    • 招待講演
  • [学会発表] What makes a quality transcript in Parliamentary reporting2017

    • 著者名/発表者名
      T.Kawahara
    • 学会等名
      Intersteno
    • 関連する報告書
      2017 実績報告書
    • 招待講演
  • [学会発表] Multi-lingual and multi-task DNN learning for articulatory error detection2016

    • 著者名/発表者名
      R.Duan, T.Kawahara, M.Dantsuji, and J.Zhang
    • 学会等名
      APSIPA ASC
    • 発表場所
      韓国・済州
    • 年月日
      2016-12-13
    • 関連する報告書
      2016 実績報告書
    • 国際学会
  • [学会発表] Prediction and generation of backchannel form for attentive listening systems2016

    • 著者名/発表者名
      T.Kawahara, T.Yamaguchi, K.Inoue, K.Takanashi, and N.Ward
    • 学会等名
      INTERSPEECH
    • 発表場所
      米国・サンフランシスコ
    • 年月日
      2016-09-08
    • 関連する報告書
      2016 実績報告書
    • 国際学会
  • [学会発表] Leveraging automatic speech recognition errors to detect challenging speech segments in TED talks2016

    • 著者名/発表者名
      M.Mirzaei, K.Meshgi, and T.Kawahara
    • 学会等名
      EUROCALL
    • 発表場所
      キプロス・リマソル
    • 年月日
      2016-08-24
    • 関連する報告書
      2016 実績報告書
    • 国際学会
  • [備考] 音声認識技術を用いた字幕付与支援プロジェクト

    • URL

      http://www.sap.ist.i.kyoto-u.ac.jp/jimaku/

    • 関連する報告書
      2018 実績報告書
  • [備考] 音声認識を用いた自動字幕作成システム

    • URL

      http://caption.ist.i.kyoto-u.ac.jp/

    • 関連する報告書
      2018 実績報告書 2017 実績報告書 2016 実績報告書
  • [備考] 音声認識を用いた字幕作成支援

    • URL

      http://www.sap.ist.i.kyoto-u.ac.jp/jimaku/

    • 関連する報告書
      2017 実績報告書
  • [備考] 音声認識技術を用いた字幕付与支援

    • URL

      http://sap.ist.i.kyoto-u.ac.jp/jimaku/

    • 関連する報告書
      2016 実績報告書

URL: 

公開日: 2016-04-21   更新日: 2020-03-30  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi