研究実績の概要 |
ChatGPTなど自然言語文の自動生成技術が盛んに研究されており,自然言語処理の技術に社会的な注目が集まっている. 自然言語の基本単位となる単語の意味を捉えることは,自然言語処理の多くのタスクにおいて重要である. 単語分表現は,文書などに登場する単語を単語ベクト ルとして表現し,その後の翻訳や文書生成に使用される基本技術となっている.しかし,単語分散表現には,単語の出現頻度をエンコードしてしまう問題があり,本来捉えるべき単語の意味関係を的確に捉えられなくなる欠点がある.本年度,本研究では,頻度語が単語分散表現にエンコードされる問題を解消する目的のため,提案手法と既存手法の比較を行った. 既存手法として,敵対的学習により取り組む研究 [1]や word2vecにより得られた単語ベクトルの単語の分布において,もっとも分散が大きい方向の成分を取り除くことで,単語を空間に一様に配置する方法などがある [2]. [1]Chengyue Gong,Di He,Xu Tan,Tao Qin, Liwei Wang, and Tie-Yan Liu. 2018. FRAGE: Frequency- Agnostic Word Representation. In Advances in Neural Information Processing Systems(NeurIPS), volume 31. Curran Associates, Inc. [2]Jiaqi Mu and Pramod Viswanath,All-but-the- top: Simple and effective postprocessing for word representations. In the Proceedings of the 6th International Conference on Learning Representations (ICLR), 2018.
|