Compositionality and Interpretation of Word Embeddings
Project/Area Number |
19K12099
|
Research Category |
Grant-in-Aid for Scientific Research (C)
|
Allocation Type | Multi-year Fund |
Section | 一般 |
Review Section |
Basic Section 61030:Intelligent informatics-related
|
Research Institution | Tokyo Metropolitan University |
Principal Investigator |
Komachi Mamoru 東京都立大学, システムデザイン研究科, 教授 (60581329)
|
Project Period (FY) |
2019-04-01 – 2022-03-31
|
Project Status |
Completed (Fiscal Year 2021)
|
Budget Amount *help |
¥4,290,000 (Direct Cost: ¥3,300,000、Indirect Cost: ¥990,000)
Fiscal Year 2021: ¥650,000 (Direct Cost: ¥500,000、Indirect Cost: ¥150,000)
Fiscal Year 2020: ¥650,000 (Direct Cost: ¥500,000、Indirect Cost: ¥150,000)
Fiscal Year 2019: ¥2,990,000 (Direct Cost: ¥2,300,000、Indirect Cost: ¥690,000)
|
Keywords | 単語分散表現 / 構成性 / 機械翻訳 / 文法誤り訂正 / 意味変化 / 深層学習 / 自然言語処理 / 文法誤り検出 / 機械学習 / 分散表現 |
Outline of Research at the Start |
本研究は、自然言語処理における単語分散表現の学習において、意味の構成性がどのように実現されていて文の意味表現を計算できるのかについて、情報理論的観点から研究する。意味を構成する最小の単位は形態素と言われているが、文の意味の計算に必要な構成要素が何であるかは明らかではない。そこで、本研究は形態素より小さい単位で意味を構成する要素の探求と、それらを用いて文の意味を計算する技術の確立を目指す。
|
Outline of Final Research Achievements |
In this research, we studied methods for composing distributed representation of words from smaller units in word representation learning in natural language processing. Specifically, focusing on machine translation, we explored the optimal granularity of input for learning distributed representation of words in Japanese-Chinese translation. We also clarified what kind of knowledge is transferable across languages such as Japanese, English, German, and Russian for grammatical error correction. In addition, we addressed the interpretation of word representations, and proposed a highly interpretable method for learning word representations to capture diachronic semantic change, employing an approach with an information-theoretic background.
|
Academic Significance and Societal Importance of the Research Achievements |
本研究の成果は、日本語や中国語のような表意文字を用いる言語は、文字よりも細かい単位で意味を捉える方が適切であるという可能性を示唆している点にあります。世界的には英語に代表されるような少数のアルファベットを用いる言語が広く研究されていますが、そのような言語で提案されている手法が日本語や中国語では必ずしも最適な手法ではない、ということを意味します。深層学習の登場により多言語を同時に扱うことのできる手法がさまざま提案されていますが、それぞれの言語の特徴も考慮することの重要性を改めて示しています。
|
Report
(4 results)
Research Products
(25 results)