2020 Fiscal Year Research-status Report
Compositionality and Interpretation of Word Embeddings
Project/Area Number |
19K12099
|
Research Institution | Tokyo Metropolitan University |
Principal Investigator |
小町 守 東京都立大学, システムデザイン研究科, 准教授 (60581329)
|
Project Period (FY) |
2019-04-01 – 2022-03-31
|
Keywords | 深層学習 / 自然言語処理 / 機械翻訳 / 文法誤り検出 |
Outline of Annual Research Achievements |
本年度も昨年度から継続して機械翻訳と文法誤り訂正における単語分散表現の分析に焦点を当てて研究を行いました。いずれも、ニューラルネットワーク(深層学習)を用いた言語生成の研究であり、入力として単語列を受け取り、出力として単語列を出すタスクで、エンコーダ・デコーダモデルと呼ばれる、入力を処理するニューラルネットワーク(エンコーダ)と出力を処理するネットワーク(デコーダ)を組み合わせて処理を行います。本研究では、このモデルでどのように入力や出力を符号化するか、という問題に取り組みました。特に近年は文脈付き単語分散表現が広く用いられるようになり、これらをどのように活用するか、という研究にも取り組んでいます。 まず、これらの分散表現としてどのような単位を使うことが適切かという問題に対して、文字よりも細かい粒度で分散表現を構成・計算することで、日本語と中国語の教師なしニューラル機械翻訳を行う手法を提案しました。日本語と中国語は部首が共通しているため、これらの共通点を活用することで教師ありニューラル機械翻訳に効果があることは示していましたが、これを教師なしニューラル機械翻訳にも適用しました。また、朝鮮語を音素に分解することで英語への機械翻訳の精度が向上することも示し、ニューラル機械翻訳においては細かい単位で処理することが有用である、ということを明らかにしています。 一方、これらの分散表現が深層学習においてどのような意味合いを持つのかについては、単語分散表現におけるバイアスの除去に関して研究を進め、機械翻訳において単語分散表現のバイアスを取り除くことが翻訳精度の向上につながることを示しました。文脈つきの単語分散表現については、大規模なテキストから事前学習した文脈付き単語分散表現を用いることで、英語の文法誤り検出および中国語の文法誤り訂正で当時の世界最高精度を達成しました。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
日本語・中国語の表現学習に関しては、当初の計画通り実験を行い、複数の査読つき国際会議で採択され、予定通り論文誌への投稿も行い、2020年度に採択されました。また、複数の言語を跨いだ表現学習を用いることで文法誤り訂正に効果があるかどうかを検証した研究が主要な国際会議に採択されました。 単語分散表現の解釈については、学習された単語分散表現を用いて様々な言語での文法誤り検出・訂正タスクの精度が向上することを示し、それぞれ査読つき国際会議で発表しました。また、文脈付き単語分散表現を用いた機械翻訳の評価に関する研究も主要な国際会議に採択され、発表しました。
|
Strategy for Future Research Activity |
表現学習については、日本語と中国語における研究は一区切りしたので、今年度は機械翻訳タスクにおける日本語と朝鮮語を横断した表現学習の研究を発展させ、2021年度内の論文誌投稿を目指します。 単語分散表現の解釈については、文法誤り訂正タスクにおける複数の言語をまたいだ表現学習の研究について、2021年度内の論文誌投稿を目指します。また、通時的な単語分散表現の学習に関する研究と分析を本格的に開始していきます。
|
Causes of Carryover |
物品費およびその他として調整していた金額の中で、少額の残額が生じた。今年度はその他として合算して使用予定である。
|
Research Products
(14 results)