2023 Fiscal Year Research-status Report
Project/Area Number |
21K12033
|
Research Institution | Iwate Prefectural University |
Principal Investigator |
鈴木 郁美 岩手県立大学, ソフトウェア情報学部, 准教授 (20637730)
|
Co-Investigator(Kenkyū-buntansha) |
原 一夫 山形大学, 理学部, 教授 (30467691)
|
Project Period (FY) |
2021-04-01 – 2026-03-31
|
Keywords | 単語分散表現 |
Outline of Annual Research Achievements |
ChatGPTなど自然言語文の自動生成技術が盛んに研究されており,自然言語処理の技術に社会的な注目が集まっている. 自然言語の基本単位となる単語の意味を捉えることは,自然言語処理の多くのタスクにおいて重要である. 単語分表現は,文書などに登場する単語を単語ベクト ルとして表現し,その後の翻訳や文書生成に使用される基本技術となっている.しかし,単語分散表現には,単語の出現頻度をエンコードしてしまう問題があり,本来捉えるべき単語の意味関係を的確に捉えられなくなる欠点がある.本年度,本研究では,頻度語が単語分散表現にエンコードされる問題を解消する目的のため,提案手法と既存手法の比較を行った. 既存手法として,敵対的学習により取り組む研究 [1]や word2vecにより得られた単語ベクトルの単語の分布において,もっとも分散が大きい方向の成分を取り除くことで,単語を空間に一様に配置する方法などがある [2]. [1]Chengyue Gong,Di He,Xu Tan,Tao Qin, Liwei Wang, and Tie-Yan Liu. 2018. FRAGE: Frequency- Agnostic Word Representation. In Advances in Neural Information Processing Systems(NeurIPS), volume 31. Curran Associates, Inc. [2]Jiaqi Mu and Pramod Viswanath,All-but-the- top: Simple and effective postprocessing for word representations. In the Proceedings of the 6th International Conference on Learning Representations (ICLR), 2018.
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
単語分散表現の代表的な 手法であるword2vecのコーパスの単語出現頻度による影響があるため,提案手法をword2ecに組み込むことで,頻度の影響を軽減することを試みた.提案手法と既存手法の比較を行い,提案手法についての効果を確かめた.
|
Strategy for Future Research Activity |
提案手法において,頻度の影響を軽減できたが,単語によっては影響が残っているものもある.よって,さらなる手法の改変により,頻度の影響を軽減し,さらに自然言語処理のタスクにおける効果も確かめる.
|
Causes of Carryover |
研究成果発表のための国際会議における採択に時間を要しているため.
|