• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 前のページに戻る

多言語コーパス構築とドメイン適応による低資源機械翻訳

研究課題

研究課題/領域番号 22KJ1724
補助金の研究課題番号 21J23124 (2021-2022)
研究種目

特別研究員奨励費

配分区分基金 (2023)
補助金 (2021-2022)
応募区分国内
審査区分 小区分61030:知能情報学関連
研究機関国立研究開発法人情報通信研究機構 (2023)
京都大学 (2021-2022)

研究代表者

宋 海越  国立研究開発法人情報通信研究機構, ユニバーサルコミュニケーション研究所 先進的音声翻訳研究開発推進センター 先進的翻訳技術研究室, 研究技術員

研究期間 (年度) 2023-03-08 – 2024-03-31
研究課題ステータス 完了 (2023年度)
配分額 *注記
2,200千円 (直接経費: 2,200千円)
2023年度: 700千円 (直接経費: 700千円)
2022年度: 700千円 (直接経費: 700千円)
2021年度: 800千円 (直接経費: 800千円)
キーワードmachine translation / low-resource languages / subword segmentation / subword encoding / decoding algorithm / corpora creation / ChatGPT / Machine translation / Parallel corpus creation / Pre-training / Data selection
研究開始時の研究の概要

We focus on improving neural machine translation quality through leveraging large language models such as ChatGPT (current version is GPT-4). We will first test the ability and find the main problem of the current GPT-4 model on the translation task. We then focus on improving the GPT-4 based method through improving the prompts such as providing similar examples. We also have plan to fine-tune our own GPT model on the machine translation task based on open-sourced models such as LLaMA.
Besides, we also continue utilizing better subword segmentation in the neural machine translation model.

研究実績の概要

Our research focused on enhancing machine translation for low-resource scenarios such as translation between Asian languages and English, and translation in specific domains such as the educational domain. To achieve this, we propose to 1) create bilingual corpora, mainly in the first year, for the low-resource domain and 2) optimize the subword segmentation information during the encoding phase in the second year and the decoding phase in the last year.
As for the publications, during the last year, there were 3 first-authored journal papers and 1 conference paper published or submitted. Over the past three years, there have been 4 journal papers and 9 international conference papers, including co-authored papers. Additionally, one patent application is underway.
This research has significantly improved the translation quality for low-resource scenarios. Through experiments, we found that the quality score measured by BLEU is improved by more than 3 points.
The low-resource translation system is indispensable for cross-cultural communication in international events such as EXPO 2025. With our approach, we can make the translation system more practical for participants who speak low-resource languages.

報告書

(3件)
  • 2023 実績報告書
  • 2022 実績報告書
  • 2021 実績報告書
  • 研究成果

    (24件)

すべて 2024 2023 2022 2021 その他

すべて 国際共同研究 (1件) 雑誌論文 (3件) (うち査読あり 3件、 オープンアクセス 3件) 学会発表 (16件) (うち国際学会 12件) 備考 (3件) 産業財産権 (1件)

  • [国際共同研究] University of Cape Town(南アフリカ)

    • 関連する報告書
      2023 実績報告書
  • [雑誌論文] DiverSeg: Leveraging Diverse Segmentations with Cross-granularity Alignment for Neural Machine Translation2024

    • 著者名/発表者名
      Song Haiyue、Mao Zhuoyuan、Dabre Raj、Chu Chenhui、Kurohashi Sadao
    • 雑誌名

      自然言語処理

      巻: 31 号: 1 ページ: 155-188

    • DOI

      10.5715/jnlp.31.155

    • ISSN
      1340-7619, 2185-8314
    • 関連する報告書
      2023 実績報告書
    • 査読あり / オープンアクセス
  • [雑誌論文] SelfSeg: A Self-supervised Sub-word Segmentation Method for Neural Machine Translation2023

    • 著者名/発表者名
      Song Haiyue、Dabre Raj、Chu Chenhui、Kurohashi Sadao、Sumita Eiichiro
    • 雑誌名

      ACM Transactions on Asian and Low-Resource Language Information Processing

      巻: 22 号: 8 ページ: 1-24

    • DOI

      10.1145/3610611

    • 関連する報告書
      2023 実績報告書
    • 査読あり / オープンアクセス
  • [雑誌論文] Spatial Hierarchical Attention Network Based Video-guided Machine Translation2023

    • 著者名/発表者名
      Weiqi Gu, Haiyue Song, Chenhui Chu, Sadao Kurohashi
    • 雑誌名

      Journal of Information Processing

      巻: 31

    • 関連する報告書
      2022 実績報告書
    • 査読あり / オープンアクセス
  • [学会発表] SubMerge: Merging Equivalent Subword Tokenizations for Subword Regularized Models in Neural Machine Translation.2024

    • 著者名/発表者名
      Haiyue Song, Francois Meyer, Raj Dabre, Hideki Tanaka, Chenhui Chu, and Sadao Kurohashi.
    • 学会等名
      The 25th Annual Conference of the European Association for Machine Translation (EAMT 2024)
    • 関連する報告書
      2023 実績報告書
    • 国際学会
  • [学会発表] Linguistically Motivated Neural Machine Translation.2024

    • 著者名/発表者名
      Haiyue Song, Hour Kaing, and Raj Dabre.
    • 学会等名
      The 25th Annual Conference of the European Association for Machine Translation (EAMT 2024)
    • 関連する報告書
      2023 実績報告書
    • 国際学会
  • [学会発表] NGLUEni: Benchmarking and Adapting Pretrained Language Models for Nguni Languages.2024

    • 著者名/発表者名
      Francois Meyer, Haiyue Song, Abhisek Chakrabarty, Jan Buys, Raj Dabre and Hideki Tanaka.
    • 学会等名
      The 2024 Joint International Conference on Computational Linguistics, Language Resources and Evaluation (LREC-COLING 2024)
    • 関連する報告書
      2023 実績報告書
    • 国際学会
  • [学会発表] Enhancing Personality Recognition in Dialogue by Data Augmentation and Heterogeneous Conversational Graph Networks.2024

    • 著者名/発表者名
      Yahui Fu, Haiyue Song, Tianyu Zhao, Tatsuya Kawahara.
    • 学会等名
      The 14th International Workshop on Spoken Dialogue Systems Technology (IWSDS2024)
    • 関連する報告書
      2023 実績報告書
    • 国際学会
  • [学会発表] Robust Neural Machine Translation for Abugidas by Glyph Perturbation2024

    • 著者名/発表者名
      Hour Kaing, Chenchen Ding, Haiyue Song, Jiannan Mao, Hideki Tanaka, and Masao Utiyama.
    • 学会等名
      言語処理学会 第30回年次大会
    • 関連する報告書
      2023 実績報告書
  • [学会発表] GPT-RE: In-context Learning for Relation Extraction using Large Language Models.2023

    • 著者名/発表者名
      Zhen Wan, Fei Cheng, Zhuoyuan Mao, Qianying Liu, Haiyue Song, Jiwei Li, Sadao Kurohashi.
    • 学会等名
      The 2023 Conference on Empirical Methods in Natural Language Processing
    • 関連する報告書
      2023 実績報告書
    • 国際学会
  • [学会発表] Exploring the Impact of Layer Normalization for Zero-shot Neural Machine Translation.2023

    • 著者名/発表者名
      Zhuoyuan Mao, Raj Dabre, Qianying Liu, Haiyue Song, Chenhui Chu, and Sadao Kurohashi.
    • 学会等名
      The 61st Annual Meeting of the Association for Computational Linguistics
    • 関連する報告書
      2023 実績報告書
    • 国際学会
  • [学会発表] Variable-length Neural Interlingua Representations for Zero-shot Neural Machine Translation.2023

    • 著者名/発表者名
      Zhuoyuan Mao, Haiyue Song, Raj Dabre, Chenhui Chu, Sadao Kurohashi.
    • 学会等名
      Proceedings of the 1st International Workshop on Multilingual, Multimodal and Multitask Language Generation (Multi3Generation) held in conjection with EAMT2023.
    • 関連する報告書
      2023 実績報告書
    • 国際学会
  • [学会発表] Relation Extraction with Weighted Contrastive Pre-training on Distant Supervision.2023

    • 著者名/発表者名
      Zhen Wan, Fei Cheng, Qianying Liu, Zhuoyuan Mao, Haiyue Song and Sadao Kurohashi.
    • 学会等名
      The 17th Conference of the European Chapter of the Association for Computational Linguistics
    • 関連する報告書
      2023 実績報告書
    • 国際学会
  • [学会発表] BERTSeg: BERT Based Unsupervised Subword Segmentation for Neural Machine Translation2022

    • 著者名/発表者名
      Haiyue Song, Raj Dabre, Zhuoyuan Mao, Chenhui Chu, and Sadao Kurohashi
    • 学会等名
      2nd Conference of the Asia-Pacific Chapter of the Association for Computational Linguistics and the 12th International Joint Conference on Natural Language Processing
    • 関連する報告書
      2022 実績報告書
    • 国際学会
  • [学会発表] Large Pre-trained Language Models with Multilingual Prompt for Japanese Natural Language Tasks2022

    • 著者名/発表者名
      Haiyue Song, Raj Dabre, Chenhui Chu and Sadao Kurohashi
    • 学会等名
      言語処理学会 第29回年次大会
    • 関連する報告書
      2022 実績報告書
  • [学会発表] When do Contrastive Word Alignments Improve Many-to-many Neural Machine Translation?2022

    • 著者名/発表者名
      Zhuoyuan Mao, Chenhui Chu, Raj Dabre, Haiyue Song, Zhen Wan, and Sadao Kurohashi
    • 学会等名
      Findings of the Association for Computational Linguistics: NAACL 2022
    • 関連する報告書
      2022 実績報告書
    • 国際学会
  • [学会発表] Relation Extraction with Weighted Contrastive Pre-training on Distant Supervision2022

    • 著者名/発表者名
      Zhen Wan, Fei Cheng, Qianying Liu, Zhuoyuan Mao, Haiyue Song, Sadao Kurohashi
    • 学会等名
      17th Conference of the European Chapter of the Association for Computational Linguistics (EACL 2023)
    • 関連する報告書
      2022 実績報告書
    • 国際学会
  • [学会発表] Representative Data Selection for Sequence-to-Sequence Pre-training2022

    • 著者名/発表者名
      Haiyue Song, Raj Dabre, Zhuoyuan Mao, Chenhui Chu, Sadao Kurohashi
    • 学会等名
      言語処理学会第28回年次大会
    • 関連する報告書
      2021 実績報告書
  • [学会発表] Improving Medical Relation Extraction with Distantly Supervised Pre-training2022

    • 著者名/発表者名
      Zhen Wan, Fei Cheng, Qianying Liu, Zhuoyuan Mao, Haiyue Song, Sadao Kurohashi
    • 学会等名
      言語処理学会第28回年次大会
    • 関連する報告書
      2021 実績報告書
  • [学会発表] Video-guided Machine Translation with Spatial Hierarchical Attention Network2021

    • 著者名/発表者名
      Weiqi Gu, Haiyue Song, Chenhui Chu, Sadao Kurohashi
    • 学会等名
      ACL-IJCNLP 2021 Student Research Workshop
    • 関連する報告書
      2021 実績報告書
    • 国際学会
  • [備考] Haiyue Song's Homepage

    • URL

      https://shyyhs.github.io/

    • 関連する報告書
      2023 実績報告書
  • [備考] 言語メディア研究室 研究発表一覧

    • URL

      https://nlp.ist.i.kyoto-u.ac.jp/?%E7%A0%94%E7%A9%B6%E7%99%BA%E8%A1%A8%E4%B8%80%E8%A6%A7

    • 関連する報告書
      2023 実績報告書
  • [備考] 先進的翻訳技術研究室 論文

    • URL

      https://att-astrec.nict.go.jp/result/

    • 関連する報告書
      2023 実績報告書
  • [産業財産権] BERTSeg: BERT Based Subword Segmentation2022

    • 発明者名
      ソウ カイエツ
    • 権利者名
      国立研究開発法人情報通信研究機構
    • 産業財産権種類
      特許
    • 出願年月日
      2022
    • 関連する報告書
      2022 実績報告書

URL: 

公開日: 2021-05-27   更新日: 2024-12-25  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi