• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 課題ページに戻る

2020 年度 実施状況報告書

単語分散表現の学習における構成性とその解釈

研究課題

研究課題/領域番号 19K12099
研究機関東京都立大学

研究代表者

小町 守  東京都立大学, システムデザイン研究科, 准教授 (60581329)

研究期間 (年度) 2019-04-01 – 2022-03-31
キーワード深層学習 / 自然言語処理 / 機械翻訳 / 文法誤り検出
研究実績の概要

本年度も昨年度から継続して機械翻訳と文法誤り訂正における単語分散表現の分析に焦点を当てて研究を行いました。いずれも、ニューラルネットワーク(深層学習)を用いた言語生成の研究であり、入力として単語列を受け取り、出力として単語列を出すタスクで、エンコーダ・デコーダモデルと呼ばれる、入力を処理するニューラルネットワーク(エンコーダ)と出力を処理するネットワーク(デコーダ)を組み合わせて処理を行います。本研究では、このモデルでどのように入力や出力を符号化するか、という問題に取り組みました。特に近年は文脈付き単語分散表現が広く用いられるようになり、これらをどのように活用するか、という研究にも取り組んでいます。
まず、これらの分散表現としてどのような単位を使うことが適切かという問題に対して、文字よりも細かい粒度で分散表現を構成・計算することで、日本語と中国語の教師なしニューラル機械翻訳を行う手法を提案しました。日本語と中国語は部首が共通しているため、これらの共通点を活用することで教師ありニューラル機械翻訳に効果があることは示していましたが、これを教師なしニューラル機械翻訳にも適用しました。また、朝鮮語を音素に分解することで英語への機械翻訳の精度が向上することも示し、ニューラル機械翻訳においては細かい単位で処理することが有用である、ということを明らかにしています。
一方、これらの分散表現が深層学習においてどのような意味合いを持つのかについては、単語分散表現におけるバイアスの除去に関して研究を進め、機械翻訳において単語分散表現のバイアスを取り除くことが翻訳精度の向上につながることを示しました。文脈つきの単語分散表現については、大規模なテキストから事前学習した文脈付き単語分散表現を用いることで、英語の文法誤り検出および中国語の文法誤り訂正で当時の世界最高精度を達成しました。

現在までの達成度 (区分)
現在までの達成度 (区分)

2: おおむね順調に進展している

理由

日本語・中国語の表現学習に関しては、当初の計画通り実験を行い、複数の査読つき国際会議で採択され、予定通り論文誌への投稿も行い、2020年度に採択されました。また、複数の言語を跨いだ表現学習を用いることで文法誤り訂正に効果があるかどうかを検証した研究が主要な国際会議に採択されました。
単語分散表現の解釈については、学習された単語分散表現を用いて様々な言語での文法誤り検出・訂正タスクの精度が向上することを示し、それぞれ査読つき国際会議で発表しました。また、文脈付き単語分散表現を用いた機械翻訳の評価に関する研究も主要な国際会議に採択され、発表しました。

今後の研究の推進方策

表現学習については、日本語と中国語における研究は一区切りしたので、今年度は機械翻訳タスクにおける日本語と朝鮮語を横断した表現学習の研究を発展させ、2021年度内の論文誌投稿を目指します。
単語分散表現の解釈については、文法誤り訂正タスクにおける複数の言語をまたいだ表現学習の研究について、2021年度内の論文誌投稿を目指します。また、通時的な単語分散表現の学習に関する研究と分析を本格的に開始していきます。

次年度使用額が生じた理由

物品費およびその他として調整していた金額の中で、少額の残額が生じた。今年度はその他として合算して使用予定である。

  • 研究成果

    (14件)

すべて 2021 2020 その他

すべて 国際共同研究 (1件) 雑誌論文 (2件) (うち査読あり 2件、 オープンアクセス 2件) 学会発表 (11件) (うち国際学会 11件)

  • [国際共同研究] IT University of Copenhagen/University of Groningen(デンマーク)

    • 国名
      デンマーク
    • 外国機関名
      IT University of Copenhagen/University of Groningen
  • [雑誌論文] 文法誤り訂正の参照文を用いない自動評価への最適化2021

    • 著者名/発表者名
      吉村綾馬, 金子正弘, 梶原智之, 小町守
    • 雑誌名

      自然言語処理

      巻: 28 ページ: -

    • 査読あり / オープンアクセス
  • [雑誌論文] Using Sub-Character Level Information for Neural Machine Translation of Logographic Languages2021

    • 著者名/発表者名
      Longtu Zhang and Mamoru Komachi
    • 雑誌名

      ACM Transaction on Asian and Low-Resource Language Information Processing

      巻: - ページ: -

    • 査読あり / オープンアクセス
  • [学会発表] From Masked-Language Modeling to Translation: Non-English Auxiliary Tasks Improve Zero-shot Spoken Language Understanding2021

    • 著者名/発表者名
      Rob van der Goot (IT University of Copenhagen), Marija Stepanovic (IT University of Copenhagen), Alan Ramponi (IT University of Copenhagen), Ibrahim Sharaf, Ahmet Ustun (University of Groningen), Aizhan Imankulova, Siti Oryza Khairunnisa, Mamoru Komachi and Barbara Plank (IT University of Copenhagen)
    • 学会等名
      2021 Annual Conference of the North American Chapter of the Association for Computational Linguistics (NAACL-HLT 2021)
    • 国際学会
  • [学会発表] SOME: Reference-less Sub-Metrics Optimized for Manual Evaluations of Grammatical Error Correction2020

    • 著者名/発表者名
      Ryoma Yoshimura, Masahiro Kaneko, Tomoyuki Kajiwara (Osaka University) and Mamoru Komachi
    • 学会等名
      8th International Conference on Computational Linguistics (COLING)
    • 国際学会
  • [学会発表] Cross-lingual Transfer Learning for Grammatical Error Correction2020

    • 著者名/発表者名
      Ikumi Yamashita, Satoru Katsumata, Masahiro Kaneko, Aizhan Imankulova and Mamoru Komachi
    • 学会等名
      28th International Conference on Computational Linguistics (COLING)
    • 国際学会
  • [学会発表] Chinese Grammatical Correction Using BERT-based Pre-trained Model2020

    • 著者名/発表者名
      Hongfei Wang, Michiki Kurosawa, Satoru Katsumata and Mamoru Komachi
    • 学会等名
      1st Conference of the Asia-Pacific Chapter of the Association for Computational Linguistics and the 10th International Joint Conference on Natural Language Processing (AACL-IJCNLP)
    • 国際学会
  • [学会発表] Stronger Baselines for Grammatical Error Correction Using a Pretrained Encoder-Decoder Model2020

    • 著者名/発表者名
      Satoru Katsumata and Mamoru Komachi
    • 学会等名
      1st Conference of the Asia-Pacific Chapter of the Association for Computational Linguistics and the 10th International Joint Conference on Natural Language Processing (AACL-IJCNLP)
    • 国際学会
  • [学会発表] Non-Autoregressive Grammatical Error Correction Towards a Writing Support System2020

    • 著者名/発表者名
      Hiroki Homma and Mamoru Komachi
    • 学会等名
      6th Workshop on Natural Language Processing Techniques for Educational Application (NLP-TEA)
    • 国際学会
  • [学会発表] Zero-shot North Korean to English Neural Machine Translation by Character Tokenization and Phoneme Decomposition2020

    • 著者名/発表者名
      Hwichan Kim, Tosho Hirasawa and Mamoru Komachi
    • 学会等名
      58th Annual Meeting of the Association for Computational Linguistics: Student Research Workshop (ACL 2020 SRW)
    • 国際学会
  • [学会発表] Automated Essay Scoring System for Nonnative Japanese Learners2020

    • 著者名/発表者名
      Reo Hirao, Mio Arai, Hiroki Shimanaka, Satoru Katsumata and Mamoru Komachi
    • 学会等名
      12th International Conference on Language Resources and Evaluation (LREC 2020)
    • 国際学会
  • [学会発表] Korean to Japanese Neural Machine Translation System Using Hanja Information2020

    • 著者名/発表者名
      Hwichan Kim, Tosho Hirasawa and Mamoru Komachi
    • 学会等名
      7th Workshop on Asian Translation (WAT)
    • 国際学会
  • [学会発表] TMU System Using BERT-based Pre-trained Model to the NLP-TEA CGED Shared Task 20202020

    • 著者名/発表者名
      Hongfei Wang and Mamoru Komachi
    • 学会等名
      6th Workshop on Natural Language Processing (NLP-TEA)
    • 国際学会
  • [学会発表] TMUOU submission for WMT20 Quality Estimation Shared Task2020

    • 著者名/発表者名
      Akifumi Nakamachi (Osaka University), Hiroki Shimanaka, Tomoyuki Kajiwara (Osaka University) and Mamoru Komachi
    • 学会等名
      Fifth Conference on Machine Translation (WMT 2020)
    • 国際学会

URL: 

公開日: 2021-12-27  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi