• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2020 Fiscal Year Research-status Report

Compositionality and Interpretation of Word Embeddings

Research Project

Project/Area Number 19K12099
Research InstitutionTokyo Metropolitan University

Principal Investigator

小町 守  東京都立大学, システムデザイン研究科, 准教授 (60581329)

Project Period (FY) 2019-04-01 – 2022-03-31
Keywords深層学習 / 自然言語処理 / 機械翻訳 / 文法誤り検出
Outline of Annual Research Achievements

本年度も昨年度から継続して機械翻訳と文法誤り訂正における単語分散表現の分析に焦点を当てて研究を行いました。いずれも、ニューラルネットワーク(深層学習)を用いた言語生成の研究であり、入力として単語列を受け取り、出力として単語列を出すタスクで、エンコーダ・デコーダモデルと呼ばれる、入力を処理するニューラルネットワーク(エンコーダ)と出力を処理するネットワーク(デコーダ)を組み合わせて処理を行います。本研究では、このモデルでどのように入力や出力を符号化するか、という問題に取り組みました。特に近年は文脈付き単語分散表現が広く用いられるようになり、これらをどのように活用するか、という研究にも取り組んでいます。
まず、これらの分散表現としてどのような単位を使うことが適切かという問題に対して、文字よりも細かい粒度で分散表現を構成・計算することで、日本語と中国語の教師なしニューラル機械翻訳を行う手法を提案しました。日本語と中国語は部首が共通しているため、これらの共通点を活用することで教師ありニューラル機械翻訳に効果があることは示していましたが、これを教師なしニューラル機械翻訳にも適用しました。また、朝鮮語を音素に分解することで英語への機械翻訳の精度が向上することも示し、ニューラル機械翻訳においては細かい単位で処理することが有用である、ということを明らかにしています。
一方、これらの分散表現が深層学習においてどのような意味合いを持つのかについては、単語分散表現におけるバイアスの除去に関して研究を進め、機械翻訳において単語分散表現のバイアスを取り除くことが翻訳精度の向上につながることを示しました。文脈つきの単語分散表現については、大規模なテキストから事前学習した文脈付き単語分散表現を用いることで、英語の文法誤り検出および中国語の文法誤り訂正で当時の世界最高精度を達成しました。

Current Status of Research Progress
Current Status of Research Progress

2: Research has progressed on the whole more than it was originally planned.

Reason

日本語・中国語の表現学習に関しては、当初の計画通り実験を行い、複数の査読つき国際会議で採択され、予定通り論文誌への投稿も行い、2020年度に採択されました。また、複数の言語を跨いだ表現学習を用いることで文法誤り訂正に効果があるかどうかを検証した研究が主要な国際会議に採択されました。
単語分散表現の解釈については、学習された単語分散表現を用いて様々な言語での文法誤り検出・訂正タスクの精度が向上することを示し、それぞれ査読つき国際会議で発表しました。また、文脈付き単語分散表現を用いた機械翻訳の評価に関する研究も主要な国際会議に採択され、発表しました。

Strategy for Future Research Activity

表現学習については、日本語と中国語における研究は一区切りしたので、今年度は機械翻訳タスクにおける日本語と朝鮮語を横断した表現学習の研究を発展させ、2021年度内の論文誌投稿を目指します。
単語分散表現の解釈については、文法誤り訂正タスクにおける複数の言語をまたいだ表現学習の研究について、2021年度内の論文誌投稿を目指します。また、通時的な単語分散表現の学習に関する研究と分析を本格的に開始していきます。

Causes of Carryover

物品費およびその他として調整していた金額の中で、少額の残額が生じた。今年度はその他として合算して使用予定である。

  • Research Products

    (14 results)

All 2021 2020 Other

All Int'l Joint Research (1 results) Journal Article (2 results) (of which Peer Reviewed: 2 results,  Open Access: 2 results) Presentation (11 results) (of which Int'l Joint Research: 11 results)

  • [Int'l Joint Research] IT University of Copenhagen/University of Groningen(デンマーク)

    • Country Name
      DENMARK
    • Counterpart Institution
      IT University of Copenhagen/University of Groningen
  • [Journal Article] 文法誤り訂正の参照文を用いない自動評価への最適化2021

    • Author(s)
      吉村綾馬, 金子正弘, 梶原智之, 小町守
    • Journal Title

      自然言語処理

      Volume: 28 Pages: -

    • Peer Reviewed / Open Access
  • [Journal Article] Using Sub-Character Level Information for Neural Machine Translation of Logographic Languages2021

    • Author(s)
      Longtu Zhang and Mamoru Komachi
    • Journal Title

      ACM Transaction on Asian and Low-Resource Language Information Processing

      Volume: - Pages: -

    • Peer Reviewed / Open Access
  • [Presentation] From Masked-Language Modeling to Translation: Non-English Auxiliary Tasks Improve Zero-shot Spoken Language Understanding2021

    • Author(s)
      Rob van der Goot (IT University of Copenhagen), Marija Stepanovic (IT University of Copenhagen), Alan Ramponi (IT University of Copenhagen), Ibrahim Sharaf, Ahmet Ustun (University of Groningen), Aizhan Imankulova, Siti Oryza Khairunnisa, Mamoru Komachi and Barbara Plank (IT University of Copenhagen)
    • Organizer
      2021 Annual Conference of the North American Chapter of the Association for Computational Linguistics (NAACL-HLT 2021)
    • Int'l Joint Research
  • [Presentation] SOME: Reference-less Sub-Metrics Optimized for Manual Evaluations of Grammatical Error Correction2020

    • Author(s)
      Ryoma Yoshimura, Masahiro Kaneko, Tomoyuki Kajiwara (Osaka University) and Mamoru Komachi
    • Organizer
      8th International Conference on Computational Linguistics (COLING)
    • Int'l Joint Research
  • [Presentation] Cross-lingual Transfer Learning for Grammatical Error Correction2020

    • Author(s)
      Ikumi Yamashita, Satoru Katsumata, Masahiro Kaneko, Aizhan Imankulova and Mamoru Komachi
    • Organizer
      28th International Conference on Computational Linguistics (COLING)
    • Int'l Joint Research
  • [Presentation] Chinese Grammatical Correction Using BERT-based Pre-trained Model2020

    • Author(s)
      Hongfei Wang, Michiki Kurosawa, Satoru Katsumata and Mamoru Komachi
    • Organizer
      1st Conference of the Asia-Pacific Chapter of the Association for Computational Linguistics and the 10th International Joint Conference on Natural Language Processing (AACL-IJCNLP)
    • Int'l Joint Research
  • [Presentation] Stronger Baselines for Grammatical Error Correction Using a Pretrained Encoder-Decoder Model2020

    • Author(s)
      Satoru Katsumata and Mamoru Komachi
    • Organizer
      1st Conference of the Asia-Pacific Chapter of the Association for Computational Linguistics and the 10th International Joint Conference on Natural Language Processing (AACL-IJCNLP)
    • Int'l Joint Research
  • [Presentation] Non-Autoregressive Grammatical Error Correction Towards a Writing Support System2020

    • Author(s)
      Hiroki Homma and Mamoru Komachi
    • Organizer
      6th Workshop on Natural Language Processing Techniques for Educational Application (NLP-TEA)
    • Int'l Joint Research
  • [Presentation] Zero-shot North Korean to English Neural Machine Translation by Character Tokenization and Phoneme Decomposition2020

    • Author(s)
      Hwichan Kim, Tosho Hirasawa and Mamoru Komachi
    • Organizer
      58th Annual Meeting of the Association for Computational Linguistics: Student Research Workshop (ACL 2020 SRW)
    • Int'l Joint Research
  • [Presentation] Automated Essay Scoring System for Nonnative Japanese Learners2020

    • Author(s)
      Reo Hirao, Mio Arai, Hiroki Shimanaka, Satoru Katsumata and Mamoru Komachi
    • Organizer
      12th International Conference on Language Resources and Evaluation (LREC 2020)
    • Int'l Joint Research
  • [Presentation] Korean to Japanese Neural Machine Translation System Using Hanja Information2020

    • Author(s)
      Hwichan Kim, Tosho Hirasawa and Mamoru Komachi
    • Organizer
      7th Workshop on Asian Translation (WAT)
    • Int'l Joint Research
  • [Presentation] TMU System Using BERT-based Pre-trained Model to the NLP-TEA CGED Shared Task 20202020

    • Author(s)
      Hongfei Wang and Mamoru Komachi
    • Organizer
      6th Workshop on Natural Language Processing (NLP-TEA)
    • Int'l Joint Research
  • [Presentation] TMUOU submission for WMT20 Quality Estimation Shared Task2020

    • Author(s)
      Akifumi Nakamachi (Osaka University), Hiroki Shimanaka, Tomoyuki Kajiwara (Osaka University) and Mamoru Komachi
    • Organizer
      Fifth Conference on Machine Translation (WMT 2020)
    • Int'l Joint Research

URL: 

Published: 2021-12-27  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi