• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2019 Fiscal Year Research-status Report

Compositionality and Interpretation of Word Embeddings

Research Project

Project/Area Number 19K12099
Research InstitutionTokyo Metropolitan University

Principal Investigator

小町 守  首都大学東京, システムデザイン研究科, 准教授 (60581329)

Project Period (FY) 2019-04-01 – 2022-03-31
Keywords単語分散表現 / 機械翻訳 / 文法誤り訂正
Outline of Annual Research Achievements

本年度は機械翻訳と文法誤り訂正における単語分散表現の分析に焦点を当てて研究を行いました。いずれも、ニューラルネットワーク(深層学習)を用いた言語生成の研究であり、入力として単語列を受け取り、出力として単語列を出すタスクで、エンコーダ・デコーダモデルと呼ばれる、入力を処理するニューラルネットワーク(エンコーダ)と出力を処理するネットワーク(デコーダ)を組み合わせて処理を行います。本研究では、このモデルでどのように入力や出力を符号化するか、という問題に取り組みました。
まず、これらの分散表現としてどのような単位を使うことが適切かという問題に対して、文字よりも細かい粒度で分散表現を構成・計算することで、日本語と中国語の教師なしニューラル機械翻訳を行う手法を提案しました。日本語と中国語は部首が共通しているため、これらの共通点を活用することで教師ありニューラル機械翻訳に効果があることは示していましたが、これを教師なしニューラルにも適用しました。また、朝鮮語を音素に分解することで英語への機械翻訳の精度が向上することも示し、ニューラル機械翻訳においては細かい単位で処理することが有用である、ということを明らかにしています。
一方、これらの分散表現が深層学習においてどのような意味合いを持つのかについては、単語分散表現におけるバイアスの除去に関して研究を進め、機械翻訳において単語分散表現のバイアスを取り除くことが翻訳精度の向上につながることを示しました。文脈つきの単語分散表現については、大規模なテキストから事前学習した文脈付き単語分散表現を用いることで、英語の文法誤り検出で当時の世界最高精度を達成しました。

Current Status of Research Progress
Current Status of Research Progress

2: Research has progressed on the whole more than it was originally planned.

Reason

表現学習に関しては、当初の計画通り実験を行い、複数の査読つき国際会議で採択され、順調に進展しています。今年度中に論文誌への投稿も行い、2020年度の採択を目指しています。
単語分散表現の解釈については、学習された単語分散表現を用いて機械翻訳や文法誤り訂正といった応用タスクの精度が向上することを示し、それぞれ査読つき国際会議で発表しました。

Strategy for Future Research Activity

表現学習については、音素による表現学習の研究をさらに進め、日本語・中国語・朝鮮語を横断した表現学習の研究に着手します。
単語分散表現の解釈については、文脈付き単語分散表現を含む深層言語表現モデルにおいて、それぞれの応用タスクでどの要素が性能向上に寄与しているのかについての分析を進めます。

Causes of Carryover

予想以上の国際会議の採択があり、物品費に用いる予定であった予算を旅費に組み替えて使用したために変動があり2万円程度の繰越額が発生していますが、来年度の交付金と合わせて物品費に使用予定です。

  • Research Products

    (7 results)

All 2020 2019 Other

All Int'l Joint Research (1 results) Journal Article (2 results) (of which Peer Reviewed: 2 results,  Open Access: 2 results) Presentation (4 results) (of which Int'l Joint Research: 4 results)

  • [Int'l Joint Research] リバプール大学(英国)

    • Country Name
      UNITED KINGDOM
    • Counterpart Institution
      リバプール大学
  • [Journal Article] Multi-Head Multi-Layer Attention to Deep Language Representations for Grammatical Error Detection2019

    • Author(s)
      Masahiro Kaneko and Mamoru Komachi
    • Journal Title

      Computacion y Sistemas

      Volume: 23 Pages: 883-391

    • Peer Reviewed / Open Access
  • [Journal Article] 事前学習された文の分散表現を用いた機械翻訳の自動評価2019

    • Author(s)
      嶋中宏希, 梶原智之, 小町守
    • Journal Title

      自然言語処理

      Volume: 26 Pages: 613-634

    • Peer Reviewed / Open Access
  • [Presentation] Automated Essay Scoring System for Nonnative Japanese Learners2020

    • Author(s)
      Reo Hirao, Mio Arai, Hiroki Shimanaka, Satoru Katsumata and Mamoru Komachi
    • Organizer
      12th International Conference on Language Resources and Evaluation
    • Int'l Joint Research
  • [Presentation] Zero-shot North Korean to English Neural Machine Translation by Character Tokenization and Phoneme Decomposition2020

    • Author(s)
      Hwichan Kim, Tosho Hirasawa and Mamoru Komachi
    • Organizer
      ACL 2020 Student Research Workshop
    • Int'l Joint Research
  • [Presentation] Chinese--Japanese Unsupervised Neural Machine Translation Using Sub-character Level Information2019

    • Author(s)
      Longtu Zhang and Mamoru Komachi
    • Organizer
      The 33rd Pacific Asia Conference on Language, Information and Computation
    • Int'l Joint Research
  • [Presentation] Debiasing Word Embeddings Improves Multimodal Machine Translation2019

    • Author(s)
      Tosho Hirasawa and Mamoru Komachi
    • Organizer
      17th Machine Translation Summit
    • Int'l Joint Research

URL: 

Published: 2021-01-27  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi