研究課題/領域番号 |
21K12033
|
研究種目 |
基盤研究(C)
|
配分区分 | 基金 |
応募区分 | 一般 |
審査区分 |
小区分61030:知能情報学関連
|
研究機関 | 岩手県立大学 (2022-2023) 長崎大学 (2021) |
研究代表者 |
鈴木 郁美 岩手県立大学, ソフトウェア情報学部, 准教授 (20637730)
|
研究分担者 |
原 一夫 山形大学, 理学部, 教授 (30467691)
|
研究期間 (年度) |
2021-04-01 – 2026-03-31
|
研究課題ステータス |
交付 (2023年度)
|
配分額 *注記 |
4,290千円 (直接経費: 3,300千円、間接経費: 990千円)
2025年度: 520千円 (直接経費: 400千円、間接経費: 120千円)
2024年度: 910千円 (直接経費: 700千円、間接経費: 210千円)
2023年度: 910千円 (直接経費: 700千円、間接経費: 210千円)
2022年度: 650千円 (直接経費: 500千円、間接経費: 150千円)
2021年度: 1,300千円 (直接経費: 1,000千円、間接経費: 300千円)
|
キーワード | 単語分散表現 / word2vec |
研究開始時の研究の概要 |
単語の意味的関係を表現するために,単語をベクトル表現にする「単語分散表現」が広く活用されている.しかし,単語分散表現には,単語の出現頻度をエンコードしてしまう問題があり,本来捉えるべき単語の意味関係を的確に捉えられなくなる欠点がある.本研究では,単語分散表現の頻度エンコード問題の数理的背景を明らかにするとともに,単語分散表現の頻度エンコードを解消する手法を開発する.
|
研究実績の概要 |
ChatGPTなど自然言語文の自動生成技術が盛んに研究されており,自然言語処理の技術に社会的な注目が集まっている. 自然言語の基本単位となる単語の意味を捉えることは,自然言語処理の多くのタスクにおいて重要である. 単語分表現は,文書などに登場する単語を単語ベクト ルとして表現し,その後の翻訳や文書生成に使用される基本技術となっている.しかし,単語分散表現には,単語の出現頻度をエンコードしてしまう問題があり,本来捉えるべき単語の意味関係を的確に捉えられなくなる欠点がある.本年度,本研究では,頻度語が単語分散表現にエンコードされる問題を解消する目的のため,提案手法と既存手法の比較を行った. 既存手法として,敵対的学習により取り組む研究 [1]や word2vecにより得られた単語ベクトルの単語の分布において,もっとも分散が大きい方向の成分を取り除くことで,単語を空間に一様に配置する方法などがある [2]. [1]Chengyue Gong,Di He,Xu Tan,Tao Qin, Liwei Wang, and Tie-Yan Liu. 2018. FRAGE: Frequency- Agnostic Word Representation. In Advances in Neural Information Processing Systems(NeurIPS), volume 31. Curran Associates, Inc. [2]Jiaqi Mu and Pramod Viswanath,All-but-the- top: Simple and effective postprocessing for word representations. In the Proceedings of the 6th International Conference on Learning Representations (ICLR), 2018.
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
単語分散表現の代表的な 手法であるword2vecのコーパスの単語出現頻度による影響があるため,提案手法をword2ecに組み込むことで,頻度の影響を軽減することを試みた.提案手法と既存手法の比較を行い,提案手法についての効果を確かめた.
|
今後の研究の推進方策 |
提案手法において,頻度の影響を軽減できたが,単語によっては影響が残っているものもある.よって,さらなる手法の改変により,頻度の影響を軽減し,さらに自然言語処理のタスクにおける効果も確かめる.
|