単語分散表現の学習における構成性とその解釈

研究課題

研究課題/領域番号	19K12099
研究種目	基盤研究(C)
配分区分	基金
応募区分	一般
審査区分	小区分61030:知能情報学関連
研究機関	東京都立大学
研究代表者	小町守東京都立大学, システムデザイン研究科, 教授 (60581329)
研究期間 (年度)	2019-04-01 – 2022-03-31
研究課題ステータス	完了 (2021年度)
配分額 *注記	4,290千円 (直接経費: 3,300千円、間接経費: 990千円) 2021年度: 650千円 (直接経費: 500千円、間接経費: 150千円) 2020年度: 650千円 (直接経費: 500千円、間接経費: 150千円) 2019年度: 2,990千円 (直接経費: 2,300千円、間接経費: 690千円)
キーワード	単語分散表現 / 構成性 / 機械翻訳 / 文法誤り訂正 / 意味変化 / 深層学習 / 自然言語処理 / 文法誤り検出 / 機械学習 / 分散表現
研究開始時の研究の概要	本研究は、自然言語処理における単語分散表現の学習において、意味の構成性がどのように実現されていて文の意味表現を計算できるのかについて、情報理論的観点から研究する。意味を構成する最小の単位は形態素と言われているが、文の意味の計算に必要な構成要素が何であるかは明らかではない。そこで、本研究は形態素より小さい単位で意味を構成する要素の探求と、それらを用いて文の意味を計算する技術の確立を目指す。
研究成果の概要	本研究では、自然言語処理における単語をベクトル化して表現する分野である単語分散表現の学習において、単語より小さい単位での分散表現から、より大きな単位の分散表現を計算する手法について研究を行いました。具体的には、機械翻訳を題材にして日中翻訳における単語分散表現学習における最適な入力の粒度を探究し、文法誤り訂正においても日本語・英語・ドイツ語・ロシア語など複数の言語でどのような知識が転移可能であるかを明らかにしました。また、単語分散表現の解釈についても取り組み、通時的な意味変化を捉えるための単語分散表現の学習において情報理論的な背景を持つアプローチを採用し、解釈性の高い手法を提案しました。
研究成果の学術的意義や社会的意義	本研究の成果は、日本語や中国語のような表意文字を用いる言語は、文字よりも細かい単位で意味を捉える方が適切であるという可能性を示唆している点にあります。世界的には英語に代表されるような少数のアルファベットを用いる言語が広く研究されていますが、そのような言語で提案されている手法が日本語や中国語では必ずしも最適な手法ではない、ということを意味します。深層学習の登場により多言語を同時に扱うことのできる手法がさまざま提案されていますが、それぞれの言語の特徴も考慮することの重要性を改めて示しています。

報告書

(4件)

研究成果
(25件)

すべて 2022 2021 2020 2019 その他

すべて国際共同研究 (2件) 雑誌論文 (6件) (うち査読あり 6件、オープンアクセス 6件) 学会発表 (17件) (うち国際学会 17件)

[国際共同研究] IT University of Copenhagen/University of Groningen(デンマーク)
- 関連する報告書
  2020 実施状況報告書
[国際共同研究] リバプール大学(英国)
- 関連する報告書
  2019 実施状況報告書
[雑誌論文] 言語間での転移学習のための事前学習モデルと多言語の学習者データを用いた文法誤り訂正2022
- 著者名/発表者名
  山下郁海, 金子正弘, 三田雅人, 勝又智, Imankulova Aizhan, 小町守
- 雑誌名
  
  自然言語処理
  
  巻: 29
- 関連する報告書
  2021 実績報告書
- 査読あり / オープンアクセス
[雑誌論文] Using Sub-character Level Information for Neural Machine Translation of Logographic Languages2021
- 著者名/発表者名
  Zhang Longtu and Komachi Mamoru
- 雑誌名
  
  ACM Transactions on Asian and Low-Resource Language Information Processing
  
  巻: 20 号: 2 ページ: 1-15
- DOI
  10.1145/3431727
- 関連する報告書
  2021 実績報告書
- 査読あり / オープンアクセス
[雑誌論文] 文法誤り訂正の参照文を用いない自動評価への最適化2021
- 著者名/発表者名
  吉村綾馬, 金子正弘, 梶原智之, 小町守
- 雑誌名
  
  自然言語処理
  
  巻: 28
- 関連する報告書
  2020 実施状況報告書
- 査読あり / オープンアクセス
[雑誌論文] Using Sub-Character Level Information for Neural Machine Translation of Logographic Languages2021
- 著者名/発表者名
  Longtu Zhang and Mamoru Komachi
- 雑誌名
  
  ACM Transaction on Asian and Low-Resource Language Information Processing
  
  巻: -
- 関連する報告書
  2020 実施状況報告書
- 査読あり / オープンアクセス
[雑誌論文] Multi-Head Multi-Layer Attention to Deep Language Representations for Grammatical Error Detection2019
- 著者名/発表者名
  Masahiro Kaneko and Mamoru Komachi
- 雑誌名
  
  Computacion y Sistemas
  
  巻: 23 ページ: 883-391
- 関連する報告書
  2019 実施状況報告書
- 査読あり / オープンアクセス
[雑誌論文] 事前学習された文の分散表現を用いた機械翻訳の自動評価2019
- 著者名/発表者名
  嶋中宏希, 梶原智之, 小町守
- 雑誌名
  
  自然言語処理
  
  巻: 26 ページ: 613-634
- NAID
  130007761392
- 関連する報告書
  2019 実施状況報告書
- 査読あり / オープンアクセス
[学会発表] Analyzing Semantic Changes in Japanese Words Using BERT2021
- 著者名/発表者名
  Kazuma Kobayashi, Taichi Aida and Mamoru Komachi
- 学会等名
  35th Pacific Asia Conference on Language, Information and Computation (PACLIC 2021)
- 関連する報告書
  2021 実績報告書
- 国際学会
[学会発表] A Comprehensive Analysis of PMI-based Models for Measuring Semantic Differences2021
- 著者名/発表者名
  Taichi Aida, Mamoru Komachi, Toshinobu Ogiso, Hiroya Takamura, Daichi Mochihashi
- 学会等名
  35th Pacific Asia Conference on Language, Information and Computation (PACLIC 2021)
- 関連する報告書
  2021 実績報告書
- 国際学会
[学会発表] From Masked-Language Modeling to Translation: Non-English Auxiliary Tasks Improve Zero-shot Spoken Language Understanding2021
- 著者名/発表者名
  Rob van der Goot (IT University of Copenhagen), Marija Stepanovic (IT University of Copenhagen), Alan Ramponi (IT University of Copenhagen), Ibrahim Sharaf, Ahmet Ustun (University of Groningen), Aizhan Imankulova, Siti Oryza Khairunnisa, Mamoru Komachi and Barbara Plank (IT University of Copenhagen)
- 学会等名
  2021 Annual Conference of the North American Chapter of the Association for Computational Linguistics (NAACL-HLT 2021)
- 関連する報告書
  2020 実施状況報告書
- 国際学会
[学会発表] SOME: Reference-less Sub-Metrics Optimized for Manual Evaluations of Grammatical Error Correction2020
- 著者名/発表者名
  Ryoma Yoshimura, Masahiro Kaneko, Tomoyuki Kajiwara (Osaka University) and Mamoru Komachi
- 学会等名
  8th International Conference on Computational Linguistics (COLING)
- 関連する報告書
  2020 実施状況報告書
- 国際学会
[学会発表] Cross-lingual Transfer Learning for Grammatical Error Correction2020
- 著者名/発表者名
  Ikumi Yamashita, Satoru Katsumata, Masahiro Kaneko, Aizhan Imankulova and Mamoru Komachi
- 学会等名
  28th International Conference on Computational Linguistics (COLING)
- 関連する報告書
  2020 実施状況報告書
- 国際学会
[学会発表] Chinese Grammatical Correction Using BERT-based Pre-trained Model2020
- 著者名/発表者名
  Hongfei Wang, Michiki Kurosawa, Satoru Katsumata and Mamoru Komachi
- 学会等名
  1st Conference of the Asia-Pacific Chapter of the Association for Computational Linguistics and the 10th International Joint Conference on Natural Language Processing (AACL-IJCNLP)
- 関連する報告書
  2020 実施状況報告書
- 国際学会
[学会発表] Stronger Baselines for Grammatical Error Correction Using a Pretrained Encoder-Decoder Model2020
- 著者名/発表者名
  Satoru Katsumata and Mamoru Komachi
- 学会等名
  1st Conference of the Asia-Pacific Chapter of the Association for Computational Linguistics and the 10th International Joint Conference on Natural Language Processing (AACL-IJCNLP)
- 関連する報告書
  2020 実施状況報告書
- 国際学会
[学会発表] Non-Autoregressive Grammatical Error Correction Towards a Writing Support System2020
- 著者名/発表者名
  Hiroki Homma and Mamoru Komachi
- 学会等名
  6th Workshop on Natural Language Processing Techniques for Educational Application (NLP-TEA)
- 関連する報告書
  2020 実施状況報告書
- 国際学会
[学会発表] Zero-shot North Korean to English Neural Machine Translation by Character Tokenization and Phoneme Decomposition2020
- 著者名/発表者名
  Hwichan Kim, Tosho Hirasawa and Mamoru Komachi
- 学会等名
  58th Annual Meeting of the Association for Computational Linguistics: Student Research Workshop (ACL 2020 SRW)
- 関連する報告書
  2020 実施状況報告書
- 国際学会
[学会発表] Automated Essay Scoring System for Nonnative Japanese Learners2020
- 著者名/発表者名
  Reo Hirao, Mio Arai, Hiroki Shimanaka, Satoru Katsumata and Mamoru Komachi
- 学会等名
  12th International Conference on Language Resources and Evaluation (LREC 2020)
- 関連する報告書
  2020 実施状況報告書
- 国際学会
[学会発表] Korean to Japanese Neural Machine Translation System Using Hanja Information2020
- 著者名/発表者名
  Hwichan Kim, Tosho Hirasawa and Mamoru Komachi
- 学会等名
  7th Workshop on Asian Translation (WAT)
- 関連する報告書
  2020 実施状況報告書
- 国際学会
[学会発表] TMU System Using BERT-based Pre-trained Model to the NLP-TEA CGED Shared Task 20202020
- 著者名/発表者名
  Hongfei Wang and Mamoru Komachi
- 学会等名
  6th Workshop on Natural Language Processing (NLP-TEA)
- 関連する報告書
  2020 実施状況報告書
- 国際学会
[学会発表] TMUOU submission for WMT20 Quality Estimation Shared Task2020
- 著者名/発表者名
  Akifumi Nakamachi (Osaka University), Hiroki Shimanaka, Tomoyuki Kajiwara (Osaka University) and Mamoru Komachi
- 学会等名
  Fifth Conference on Machine Translation (WMT 2020)
- 関連する報告書
  2020 実施状況報告書
- 国際学会
[学会発表] Automated Essay Scoring System for Nonnative Japanese Learners2020
- 著者名/発表者名
  Reo Hirao, Mio Arai, Hiroki Shimanaka, Satoru Katsumata and Mamoru Komachi
- 学会等名
  12th International Conference on Language Resources and Evaluation
- 関連する報告書
  2019 実施状況報告書
- 国際学会
[学会発表] Zero-shot North Korean to English Neural Machine Translation by Character Tokenization and Phoneme Decomposition2020
- 著者名/発表者名
  Hwichan Kim, Tosho Hirasawa and Mamoru Komachi
- 学会等名
  ACL 2020 Student Research Workshop
- 関連する報告書
  2019 実施状況報告書
- 国際学会
[学会発表] Chinese--Japanese Unsupervised Neural Machine Translation Using Sub-character Level Information2019
- 著者名/発表者名
  Longtu Zhang and Mamoru Komachi
- 学会等名
  The 33rd Pacific Asia Conference on Language, Information and Computation
- 関連する報告書
  2019 実施状況報告書
- 国際学会
[学会発表] Debiasing Word Embeddings Improves Multimodal Machine Translation2019
- 著者名/発表者名
  Tosho Hirasawa and Mamoru Komachi
- 学会等名
  17th Machine Translation Summit
- 関連する報告書
  2019 実施状況報告書
- 国際学会

単語分散表現の学習における構成性とその解釈

研究代表者

小町 守 東京都立大学, システムデザイン研究科, 教授 (60581329)

4,290千円 (直接経費: 3,300千円、間接経費: 990千円)

報告書

研究成果

[国際共同研究] IT University of Copenhagen/University of Groningen(デンマーク)

関連する報告書

[国際共同研究] リバプール大学(英国)

関連する報告書

[雑誌論文] 言語間での転移学習のための事前学習モデルと多言語の学習者データを用いた文法誤り訂正2022

著者名/発表者名

雑誌名

関連する報告書

[雑誌論文] Using Sub-character Level Information for Neural Machine Translation of Logographic Languages2021

著者名/発表者名

雑誌名

DOI

関連する報告書

[雑誌論文] 文法誤り訂正の参照文を用いない自動評価への最適化2021

著者名/発表者名

雑誌名

関連する報告書

[雑誌論文] Using Sub-Character Level Information for Neural Machine Translation of Logographic Languages2021

著者名/発表者名

雑誌名

関連する報告書

[雑誌論文] Multi-Head Multi-Layer Attention to Deep Language Representations for Grammatical Error Detection2019

著者名/発表者名

雑誌名

関連する報告書

[雑誌論文] 事前学習された文の分散表現を用いた機械翻訳の自動評価2019

著者名/発表者名

雑誌名

NAID

関連する報告書

[学会発表] Analyzing Semantic Changes in Japanese Words Using BERT2021

著者名/発表者名

学会等名

関連する報告書

[学会発表] A Comprehensive Analysis of PMI-based Models for Measuring Semantic Differences2021

著者名/発表者名

学会等名

関連する報告書

[学会発表] From Masked-Language Modeling to Translation: Non-English Auxiliary Tasks Improve Zero-shot Spoken Language Understanding2021

著者名/発表者名

学会等名

関連する報告書

[学会発表] SOME: Reference-less Sub-Metrics Optimized for Manual Evaluations of Grammatical Error Correction2020

著者名/発表者名

学会等名

関連する報告書

[学会発表] Cross-lingual Transfer Learning for Grammatical Error Correction2020

著者名/発表者名

学会等名

関連する報告書

[学会発表] Chinese Grammatical Correction Using BERT-based Pre-trained Model2020

著者名/発表者名

学会等名

関連する報告書

[学会発表] Stronger Baselines for Grammatical Error Correction Using a Pretrained Encoder-Decoder Model2020

著者名/発表者名

学会等名

関連する報告書

[学会発表] Non-Autoregressive Grammatical Error Correction Towards a Writing Support System2020

著者名/発表者名

学会等名

関連する報告書

[学会発表] Zero-shot North Korean to English Neural Machine Translation by Character Tokenization and Phoneme Decomposition2020

著者名/発表者名

学会等名

関連する報告書

[学会発表] Automated Essay Scoring System for Nonnative Japanese Learners2020

著者名/発表者名

学会等名

関連する報告書

[学会発表] Korean to Japanese Neural Machine Translation System Using Hanja Information2020

著者名/発表者名

学会等名

関連する報告書

小町守東京都立大学, システムデザイン研究科, 教授 (60581329)