意図を的確に伝える音声対話翻訳の基盤技術の創出

研究課題

研究課題/領域番号	23K28144
補助金の研究課題番号	23H03454 (2023)
研究種目	基盤研究(B)
配分区分	基金 (2024) 補助金 (2023)
応募区分	一般
審査区分	小区分61030:知能情報学関連小区分60030:統計科学関連合同審査対象区分:小区分60030:統計科学関連、小区分61030:知能情報学関連
研究機関	京都大学
研究代表者	チョシンキ京都大学, 情報学研究科, 特定准教授 (70784891)
研究分担者	李勝国立研究開発法人情報通信研究機構, ユニバーサルコミュニケーション研究所先進的音声翻訳研究開発推進センター, 研究員 (70840940)
研究期間 (年度)	2023-04-01 – 2027-03-31
研究課題ステータス	交付 (2024年度)
配分額 *注記	18,720千円 (直接経費: 14,400千円、間接経費: 4,320千円) 2026年度: 3,640千円 (直接経費: 2,800千円、間接経費: 840千円) 2025年度: 4,550千円 (直接経費: 3,500千円、間接経費: 1,050千円) 2024年度: 4,550千円 (直接経費: 3,500千円、間接経費: 1,050千円) 2023年度: 5,980千円 (直接経費: 4,600千円、間接経費: 1,380千円)
キーワード	音声対話翻訳 / 意図理解 / 多言語対話 / 感情音声認識 / 音声翻訳 / メタ介入
研究開始時の研究の概要	日本は教育環境が日本語中心のため大学等の高等教育研究機関の国際化が進んでいない。近年、深層学習等の進展により文書の機械翻訳精度は大きく改善しているが、多言語対話を支援する信頼できる対話翻訳システムは存在しない。本研究は「音声対話翻訳」という新しい機械翻訳のパラダイムを切り拓き、その基盤技術を創出する。それによって、信頼性の高い多言語対話の支援を実現させ、大学の国際化へ貢献する。
研究実績の概要	本研究は「音声対話翻訳」という新しい機械翻訳のパラダイムを切り拓き、その基盤技術を創出する。音声対話翻訳では、意図を的確に伝えるように韻律を活用し、話者の属性と感情を保つ音声から音声への翻訳を行う。また、多言語対話全体を観察し、対話が意図通りに進んでいない時にシステムが話者らにその旨を提示し発話の修正等を促す。それによって、信頼性の高い多言語対話の支援が実現される。令和5年度では以下の研究開発を行った。 1. 音声認識と話者性別推定の事前訓練による感情音声認識モデルの改善。感情音声認識の2段階fine-tuning手法において、音声認識を用いて自己教師あり学習モデルを事前訓練することによって言語情報を学習させる。また、音声認識と話者性別推定の事前訓練の組みあせてについても調査した。この成果はINTERSPEECH 2023で発表した。 2. 音声対話翻訳コーパスおよびシステムの構築。ビジネスシーン対話対訳コーパスに日英の音声をそれぞれYahoo!クラウドソーシング、Amazon Mechanical Turkを使って性別と出身地とともに付与し、音声対話翻訳コーパスを構築した。このコーパスを用いて、音声認識で原言語の音声をテキストに書き起こし、機械翻訳で原言語のテキストを目的言語のテキストへ翻訳する枠組みを用いて音声対話翻訳システムを構築した。この成果はACL 2023で発表した。 3. 多言語対話メタ観察および介入の実現に向けて、単言語対話での齟齬の定式化およびメタ介入による解消の研究を行った。対話における齟齬は重要な現象であるが、どのような現象であるかは明確でない。対話の齟齬について、Clark の言語使用に関する理論をもとにして整理し、また齟齬の解消には第三者による介入が役立つことを実験的に示した。この成果はNLP 2024で発表した。
現在までの達成度 (区分)	現在までの達成度 (区分) 2: おおむね順調に進展している理由話者属性推定および話者属性を捉えた感情音声認識を令和5年度の研究内容として予定していた。話者属性推定による感情音声認識モデルの性能向上を検証できている。また、音声対話翻訳コーパスおよびシステムの構築ができているため、来年度の研究に向けて準備ができている。
今後の研究の推進方策	令和6年度は以下の項目を研究する予定である。 1. 話者属性を捉えた感情音声認識。事前学習言語モデルの利用：音声感情認識のボトルネックはデータの希少さと思われる。日本語・英語感情音声データそれぞれでの予備実験の結果、精度が60%程度に留まる。日本語データで正解の書き起こしデータに対して事前学習言語モデルBERTを用いて感情認識の予備実験を行ったところ精度が80%程度に上がることも確認できている。そこで、テキストの大規模事前学習モデルを音声感情認識に利活用させる研究を行う。 2. 感情を捉えた機械翻訳。2.1) 感情を考慮した翻訳評価セット作成：感情を捉えた機械翻訳を評価するには感情によって意味が異なる評価セットの作成が必要になる。翻訳の曖昧性に着目した映像付きマルチモーダル機械翻訳データセットの構築研究を行っており、そのノウハウを活かして評価セットを作成していく。2.2) 感情テキスト翻訳モデル開発：ドメイン適応、多言語機械翻訳で得られた知見をベースに感情を捉えた機械翻訳モデルを開発する。 3. 話者属性・感情付き音声合成。話者属性・感情付き音声合成の同時学習：話者属性、感情音声のデータでそれぞれのモデルを学習してカスケードのシステムから始め、これまでの音声合成でのノウハウを活用し、話者属性・感情音声合成の同時学習研究を行う。

報告書

(1件)

2023 実績報告書

研究成果
(15件)

すべて 2024 2023 その他

すべて国際共同研究 (1件) 雑誌論文 (3件) (うち査読あり 3件、オープンアクセス 2件) 学会発表 (10件) (うち国際学会 7件) 備考 (1件)

[国際共同研究] Nanyang Technological University(シンガポール)
- 関連する報告書
  2023 実績報告書
[雑誌論文] DiverSeg: Leveraging Diverse Segmentations with Cross-granularity Alignment for Neural Machine Translation2024
- 著者名/発表者名
  Song Haiyue、Mao Zhuoyuan、Dabre Raj、Chu Chenhui、Kurohashi Sadao
- 雑誌名
  
  自然言語処理
  
  巻: 31 号: 1 ページ: 155-188
- DOI
  10.5715/jnlp.31.155
- ISSN
  1340-7619, 2185-8314
- 関連する報告書
  2023 実績報告書
- 査読あり / オープンアクセス
[雑誌論文] Finetuning Pretrained Model with Embedding of Domain and Language Information for ASR of Very Low-Resource Settings2023
- 著者名/発表者名
  Soky Kak、Li Sheng、Chu Chenhui、Kawahara Tatsuya
- 雑誌名
  
  International Journal of Asian Language Processing
  
  巻: 33 号: 04 ページ: 2350024-2350024
- DOI
  10.1142/s2717554523500248
- 関連する報告書
  2023 実績報告書
- 査読あり
[雑誌論文] SelfSeg: A Self-supervised Sub-word Segmentation Method for Neural Machine Translation2023
- 著者名/発表者名
  Song Haiyue、Dabre Raj、Chu Chenhui、Kurohashi Sadao、Sumita Eiichiro
- 雑誌名
  
  ACM Transactions on Asian and Low-Resource Language Information Processing
  
  巻: 22 号: 8 ページ: 1-24
- DOI
  10.1145/3610611
- 関連する報告書
  2023 実績報告書
- 査読あり / オープンアクセス
[学会発表] Combining Large Language Model with Speech Recognition System in Low-resource Settings2024
- 著者名/発表者名
  Sheng Li, Zhengdong Yang, Wangjin Zhou, Chenhui Chu, Chen Chen, Eng Siong Chng, Hisashi Kawai
- 学会等名
  言語処理学会第30回年次大会
- 関連する報告書
  2023 実績報告書
[学会発表] 対話の齟齬と介入による解消：LLM を用いた検討2024
- 著者名/発表者名
  清水周一郎, Yin Jou Huang, 村脇有吾, Chenhui Chu
- 学会等名
  言語処理学会第30回年次大会
- 関連する報告書
  2023 実績報告書
[学会発表] Investigating Effective Methods for Combining Large Language Model with Speech Recognition System2024
- 著者名/発表者名
  Sheng Li, Zhengdong Yang, Wangjin Zhou, Chenhui Chu, Hisashi Kawai
- 学会等名
  日本音響学会第151回(2024年春季)研究発表会
- 関連する報告書
  2023 実績報告書
[学会発表] Video-Helpful Multimodal Machine Translation2023
- 著者名/発表者名
  Yihang Li, Shuichiro Shimizu, Chenhui Chu, Sadao Kurohashi, Wei Li
- 学会等名
  In Proceedings of the 2023 Conference on Empirical Methods in Natural Language Processing (EMNLP 2023). pp.4281-4299
- 関連する報告書
  2023 実績報告書
- 国際学会
[学会発表] Two-stage Finetuning of Wav2vec 2.0 for Speech Emotion Recognition with ASR and Gender Pretraining2023
- 著者名/発表者名
  Yuan Gao, Chenhui Chu, Tatsuya Kawahara
- 学会等名
  Interspeech 2023. pp.3637-364
- 関連する報告書
  2023 実績報告書
- 国際学会
[学会発表] Kyoto Speech-to-Speech Translation System for IWSLT 20232023
- 著者名/発表者名
  Zhengdong Yang, Shuichiro Shimizu, Zhou Wangjin, Sheng Li, Chenhui Chu
- 学会等名
  In Proceedings of the 20th International Conference on Spoken Language Translation (IWSLT 2023). pp.357-362
- 関連する報告書
  2023 実績報告書
- 国際学会
[学会発表] Towards Speech Dialogue Translation Mediating Speakers of Different Languages2023
- 著者名/発表者名
  Shuichiro Shimizu, Chenhui Chu, Sheng Li, Sadao Kurohashi
- 学会等名
  In Proceedings of the 61st Annual Meeting of the Association for Computational Linguistics (ACL 2023): Findings Volume. pp.1122-1134
- 関連する報告書
  2023 実績報告書
- 国際学会
[学会発表] Domain and Language Adaptation Using Heterogeneous Datasets for Wav2vec2.0-based Speech Recognition of Low-resource Language2023
- 著者名/発表者名
  Kak Soky, Sheng Li, Chenhui Chu, Tatsuya Kawahara
- 学会等名
  In Proceedings of the 2023 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP 2023)
- 関連する報告書
  2023 実績報告書
- 国際学会
[学会発表] Hierarchical Softmax for End-to-End Low-resource Multilingual Speech Recognition2023
- 著者名/発表者名
  Qianying Liu, Zhuo Gong, Zhengdong Yang, Yuhang Yang, Sheng Li, Chenchen Ding, Nobuaki Minematsu, Hao Huang, Fei Cheng, Chenhui Chu, Sadao Kurohashi
- 学会等名
  In Proceedings of the 2023 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP 2023)
- 関連する報告書
  2023 実績報告書
- 国際学会
[学会発表] KyotoMOS: An Automatic MOS Scoring System for Speech Synthesis2023
- 著者名/発表者名
  Wangjin Zhou, Zhengdong Yang, Sheng Li, Chenhui Chu
- 学会等名
  In Proceedings of ACM Multimedia Asia Workshop of Multimodal, Multilingual and Multitask Modeling Technologies for Oriental Languages (M3Oriental)
- 関連する報告書
  2023 実績報告書
- 国際学会
[備考] https://researchmap.jp/chu/
- 関連する報告書
  2023 実績報告書

意図を的確に伝える音声対話翻訳の基盤技術の創出

研究代表者

チョ シンキ 京都大学, 情報学研究科, 特定准教授 (70784891)

18,720千円 (直接経費: 14,400千円、間接経費: 4,320千円)

現在までの達成度 (区分)

理由

報告書

研究成果

[国際共同研究] Nanyang Technological University(シンガポール)

関連する報告書

[雑誌論文] DiverSeg: Leveraging Diverse Segmentations with Cross-granularity Alignment for Neural Machine Translation2024

著者名/発表者名

雑誌名

DOI

ISSN

関連する報告書

[雑誌論文] Finetuning Pretrained Model with Embedding of Domain and Language Information for ASR of Very Low-Resource Settings2023

著者名/発表者名

雑誌名

DOI

関連する報告書

[雑誌論文] SelfSeg: A Self-supervised Sub-word Segmentation Method for Neural Machine Translation2023

著者名/発表者名

雑誌名

DOI

関連する報告書

[学会発表] Combining Large Language Model with Speech Recognition System in Low-resource Settings2024

著者名/発表者名

学会等名

関連する報告書

[学会発表] 対話の齟齬と介入による解消：LLM を用いた検討2024

著者名/発表者名

学会等名

関連する報告書

[学会発表] Investigating Effective Methods for Combining Large Language Model with Speech Recognition System2024

著者名/発表者名

学会等名

関連する報告書

[学会発表] Video-Helpful Multimodal Machine Translation2023

著者名/発表者名

学会等名

関連する報告書

[学会発表] Two-stage Finetuning of Wav2vec 2.0 for Speech Emotion Recognition with ASR and Gender Pretraining2023

著者名/発表者名

学会等名

関連する報告書

[学会発表] Kyoto Speech-to-Speech Translation System for IWSLT 20232023

著者名/発表者名

学会等名

関連する報告書

[学会発表] Towards Speech Dialogue Translation Mediating Speakers of Different Languages2023

著者名/発表者名

学会等名

関連する報告書

[学会発表] Domain and Language Adaptation Using Heterogeneous Datasets for Wav2vec2.0-based Speech Recognition of Low-resource Language2023

著者名/発表者名

学会等名

関連する報告書

[学会発表] Hierarchical Softmax for End-to-End Low-resource Multilingual Speech Recognition2023

著者名/発表者名

学会等名

関連する報告書

[学会発表] KyotoMOS: An Automatic MOS Scoring System for Speech Synthesis2023

著者名/発表者名

学会等名

関連する報告書

[備考] https://researchmap.jp/chu/

関連する報告書

チョシンキ京都大学, 情報学研究科, 特定准教授 (70784891)