Project/Area Number |
21K12033
|
Research Category |
Grant-in-Aid for Scientific Research (C)
|
Allocation Type | Multi-year Fund |
Section | 一般 |
Review Section |
Basic Section 61030:Intelligent informatics-related
|
Research Institution | Iwate Prefectural University (2022-2023) Nagasaki University (2021) |
Principal Investigator |
鈴木 郁美 岩手県立大学, ソフトウェア情報学部, 准教授 (20637730)
|
Co-Investigator(Kenkyū-buntansha) |
原 一夫 山形大学, 理学部, 教授 (30467691)
|
Project Period (FY) |
2021-04-01 – 2026-03-31
|
Project Status |
Granted (Fiscal Year 2023)
|
Budget Amount *help |
¥4,290,000 (Direct Cost: ¥3,300,000、Indirect Cost: ¥990,000)
Fiscal Year 2025: ¥520,000 (Direct Cost: ¥400,000、Indirect Cost: ¥120,000)
Fiscal Year 2024: ¥910,000 (Direct Cost: ¥700,000、Indirect Cost: ¥210,000)
Fiscal Year 2023: ¥910,000 (Direct Cost: ¥700,000、Indirect Cost: ¥210,000)
Fiscal Year 2022: ¥650,000 (Direct Cost: ¥500,000、Indirect Cost: ¥150,000)
Fiscal Year 2021: ¥1,300,000 (Direct Cost: ¥1,000,000、Indirect Cost: ¥300,000)
|
Keywords | 単語分散表現 / word2vec |
Outline of Research at the Start |
単語の意味的関係を表現するために,単語をベクトル表現にする「単語分散表現」が広く活用されている.しかし,単語分散表現には,単語の出現頻度をエンコードしてしまう問題があり,本来捉えるべき単語の意味関係を的確に捉えられなくなる欠点がある.本研究では,単語分散表現の頻度エンコード問題の数理的背景を明らかにするとともに,単語分散表現の頻度エンコードを解消する手法を開発する.
|
Outline of Annual Research Achievements |
ChatGPTなど自然言語文の自動生成技術が盛んに研究されており,自然言語処理の技術に社会的な注目が集まっている. 自然言語の基本単位となる単語の意味を捉えることは,自然言語処理の多くのタスクにおいて重要である. 単語分表現は,文書などに登場する単語を単語ベクト ルとして表現し,その後の翻訳や文書生成に使用される基本技術となっている.しかし,単語分散表現には,単語の出現頻度をエンコードしてしまう問題があり,本来捉えるべき単語の意味関係を的確に捉えられなくなる欠点がある.本年度,本研究では,頻度語が単語分散表現にエンコードされる問題を解消する目的のため,提案手法と既存手法の比較を行った. 既存手法として,敵対的学習により取り組む研究 [1]や word2vecにより得られた単語ベクトルの単語の分布において,もっとも分散が大きい方向の成分を取り除くことで,単語を空間に一様に配置する方法などがある [2]. [1]Chengyue Gong,Di He,Xu Tan,Tao Qin, Liwei Wang, and Tie-Yan Liu. 2018. FRAGE: Frequency- Agnostic Word Representation. In Advances in Neural Information Processing Systems(NeurIPS), volume 31. Curran Associates, Inc. [2]Jiaqi Mu and Pramod Viswanath,All-but-the- top: Simple and effective postprocessing for word representations. In the Proceedings of the 6th International Conference on Learning Representations (ICLR), 2018.
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
単語分散表現の代表的な 手法であるword2vecのコーパスの単語出現頻度による影響があるため,提案手法をword2ecに組み込むことで,頻度の影響を軽減することを試みた.提案手法と既存手法の比較を行い,提案手法についての効果を確かめた.
|
Strategy for Future Research Activity |
提案手法において,頻度の影響を軽減できたが,単語によっては影響が残っているものもある.よって,さらなる手法の改変により,頻度の影響を軽減し,さらに自然言語処理のタスクにおける効果も確かめる.
|