• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 課題ページに戻る

2022 年度 実績報告書

End-to-Endモデルに基づく汎用的な音声理解・対話

研究課題

研究課題/領域番号 20H00602
研究機関京都大学

研究代表者

河原 達也  京都大学, 情報学研究科, 教授 (00234104)

研究分担者 井上 昂治  京都大学, 情報学研究科, 助教 (10838684)
吉井 和佳  京都大学, 情報学研究科, 准教授 (20510001)
研究期間 (年度) 2020-04-01 – 2024-03-31
キーワード音声理解 / 音声対話 / 音声認識 / End-to-Endモデル
研究実績の概要

End-to-Endモデルに基づく汎用的な音声理解・対話に関して、音声認識の高度化の観点と対話生成の観点から各々以下の研究を実施した。
まず、人間どうしの自然な話し言葉音声から、フィラーや言い誤りの削除・句読点や脱落した助詞の挿入・口語的な表現の修正などの適宜必要な編集を行いながら、直接可読性の高い書き言葉スタイルの文を出力するEnd-to-Endモデルを設計・構築した。その際に、音声に忠実な書き起こしを疑似的に復元してEnd-to-Endモデルの学習を補助する手法と、句読点位置を手がかりとした音声区分化手法も併せて提案し、各々の効果を示した。衆議院審議音声を用いた評価実験により、提案手法は音声認識とテキストベースの話し言葉スタイル変換を組み合わせたカスケード型のアプローチより高精度かつ高速に会議録テキストを生成できることを確認した。
次に、ユーザの入力発話からシステムの応答を生成するEnd-to-End(Seq-to-Seq)モデルにおいて、感情認識を統合するとともに、応答から入力発話を復元するモデルも統合学習することで、文脈理解と感情認識を伴った応答生成の実現を図った。感情認識と検索型の応答を組み合わせることで、共感的な対話が実現できることを確認した。
さらに、音声認識モデルにおける自己教師付き学習の導入についても検討し、音声認識と言語認識・ドメイン認識を同時にEnd-to-Endモデルで行い、かつ後者の認識結果を利用することで、音声認識の精度が改善されることを示した。

現在までの達成度 (区分)
現在までの達成度 (区分)

2: おおむね順調に進展している

理由

音声認識・理解及び対話システムにおいて、多面的に研究を実施し、着実に成果を挙げることができた。

今後の研究の推進方策

要素技術をさらに発展させるとともに、システムとして統合していく。

  • 研究成果

    (12件)

すべて 2023 2022

すべて 雑誌論文 (2件) (うち査読あり 2件、 オープンアクセス 2件) 学会発表 (8件) (うち国際学会 8件) 図書 (2件)

  • [雑誌論文] End-to-End Generation of Written-style Transcript of Speech from Parliamentary Meetings2023

    • 著者名/発表者名
      Mimura Masato、Kawahara Tatsuya
    • 雑誌名

      Journal of Natural Language Processing

      巻: 30 ページ: 88~124

    • DOI

      10.5715/jnlp.30.88

    • 査読あり / オープンアクセス
  • [雑誌論文] TriECCC: Trilingual Corpus of the Extraordinary Chambers in the Courts of Cambodia for Speech Recognition and Translation Studies2022

    • 著者名/発表者名
      Soky Kak、Mimura Masato、Kawahara Tatsuya、Chu Chenhui、Li Sheng、Ding Chenchen、Sam Sethserey
    • 雑誌名

      International Journal of Asian Language Processing

      巻: 31 ページ: 1--21

    • DOI

      10.1142/S2717554522500072

    • 査読あり / オープンアクセス
  • [学会発表] Fusing multiple bandwidth spectrograms for improving speech enhancement.2022

    • 著者名/発表者名
      H.Shi, Y.Shu, L.Wang, J.Dang, and T.Kawahara.
    • 学会等名
      APSIPA ASC
    • 国際学会
  • [学会発表] Subband-based spectrogram fusion for speech enhancement by combining mapping and masking approaches.2022

    • 著者名/発表者名
      H.Shi, L.Wang, S.Li, J.Dang, and T.Kawahara.
    • 学会等名
      APSIPA ASC
    • 国際学会
  • [学会発表] Non-autoregressive error correction for CTC-based ASR with phone-conditioned masked LM.2022

    • 著者名/発表者名
      H.Futami, H.Inaguma, S.Ueno, M.Mimura, S.Sakai, and T.Kawahara.
    • 学会等名
      INTERSPEECH
    • 国際学会
  • [学会発表] End-to-end speech-to-punctuated-text recognition.2022

    • 著者名/発表者名
      J.Nozaki, T.Kawahara, K.Ishizuka, and T.Hashimoto.
    • 学会等名
      INTERSPEECH
    • 国際学会
  • [学会発表] Leveraging simultaneous translation for enhancing transcription of low-resource language via cross attention mechanism.2022

    • 著者名/発表者名
      K.Soky, S.Li, M.Mimura, C.Chu, and T.Kawahara.
    • 学会等名
      INTERSPEECH
    • 国際学会
  • [学会発表] Monaural speech enhancement based on spectrogram decomposition for convolutional neural network-sensitive feature extraction.2022

    • 著者名/発表者名
      H.Shi, L.Wang, S.Li, J.Dang, and T.Kawahara.
    • 学会等名
      INTERSPEECH
    • 国際学会
  • [学会発表] Selective multi-task learning for speech emotion recognition using corpora of different styles.2022

    • 著者名/発表者名
      H.Zhang, M.Mimura, T.Kawahara, and K.Ishizuka.
    • 学会等名
      IEEE-ICASSP
    • 国際学会
  • [学会発表] Phone-informed refinement of synthesized mel spectrogram for data augmentation in speech recognition.2022

    • 著者名/発表者名
      S.Ueno and T.Kawahara.
    • 学会等名
      IEEE-ICASSP
    • 国際学会
  • [図書] 音声(下)2022

    • 著者名/発表者名
      日本音響学会、岩野 公司、河原 達也、篠田 浩一、伊藤 彰則、増村 亮、小川 哲司、駒谷 和範
    • 総ページ数
      208
    • 出版者
      コロナ社
    • ISBN
      978-4-339-01367-2
  • [図書] 音声対話システム2022

    • 著者名/発表者名
      井上 昂治、河原 達也
    • 総ページ数
      272
    • 出版者
      オーム社
    • ISBN
      978-4-274-22954-1

URL: 

公開日: 2023-12-25  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi