2019 Fiscal Year Research-status Report
Compositionality and Interpretation of Word Embeddings
Project/Area Number |
19K12099
|
Research Institution | Tokyo Metropolitan University |
Principal Investigator |
小町 守 首都大学東京, システムデザイン研究科, 准教授 (60581329)
|
Project Period (FY) |
2019-04-01 – 2022-03-31
|
Keywords | 単語分散表現 / 機械翻訳 / 文法誤り訂正 |
Outline of Annual Research Achievements |
本年度は機械翻訳と文法誤り訂正における単語分散表現の分析に焦点を当てて研究を行いました。いずれも、ニューラルネットワーク(深層学習)を用いた言語生成の研究であり、入力として単語列を受け取り、出力として単語列を出すタスクで、エンコーダ・デコーダモデルと呼ばれる、入力を処理するニューラルネットワーク(エンコーダ)と出力を処理するネットワーク(デコーダ)を組み合わせて処理を行います。本研究では、このモデルでどのように入力や出力を符号化するか、という問題に取り組みました。 まず、これらの分散表現としてどのような単位を使うことが適切かという問題に対して、文字よりも細かい粒度で分散表現を構成・計算することで、日本語と中国語の教師なしニューラル機械翻訳を行う手法を提案しました。日本語と中国語は部首が共通しているため、これらの共通点を活用することで教師ありニューラル機械翻訳に効果があることは示していましたが、これを教師なしニューラルにも適用しました。また、朝鮮語を音素に分解することで英語への機械翻訳の精度が向上することも示し、ニューラル機械翻訳においては細かい単位で処理することが有用である、ということを明らかにしています。 一方、これらの分散表現が深層学習においてどのような意味合いを持つのかについては、単語分散表現におけるバイアスの除去に関して研究を進め、機械翻訳において単語分散表現のバイアスを取り除くことが翻訳精度の向上につながることを示しました。文脈つきの単語分散表現については、大規模なテキストから事前学習した文脈付き単語分散表現を用いることで、英語の文法誤り検出で当時の世界最高精度を達成しました。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
表現学習に関しては、当初の計画通り実験を行い、複数の査読つき国際会議で採択され、順調に進展しています。今年度中に論文誌への投稿も行い、2020年度の採択を目指しています。 単語分散表現の解釈については、学習された単語分散表現を用いて機械翻訳や文法誤り訂正といった応用タスクの精度が向上することを示し、それぞれ査読つき国際会議で発表しました。
|
Strategy for Future Research Activity |
表現学習については、音素による表現学習の研究をさらに進め、日本語・中国語・朝鮮語を横断した表現学習の研究に着手します。 単語分散表現の解釈については、文脈付き単語分散表現を含む深層言語表現モデルにおいて、それぞれの応用タスクでどの要素が性能向上に寄与しているのかについての分析を進めます。
|
Causes of Carryover |
予想以上の国際会議の採択があり、物品費に用いる予定であった予算を旅費に組み替えて使用したために変動があり2万円程度の繰越額が発生していますが、来年度の交付金と合わせて物品費に使用予定です。
|
Research Products
(7 results)