• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 課題ページに戻る

2023 年度 実施状況報告書

単語分散表現の頻度エンコード問題の解消

研究課題

研究課題/領域番号 21K12033
研究機関岩手県立大学

研究代表者

鈴木 郁美  岩手県立大学, ソフトウェア情報学部, 准教授 (20637730)

研究分担者 原 一夫  山形大学, 理学部, 教授 (30467691)
研究期間 (年度) 2021-04-01 – 2026-03-31
キーワード単語分散表現
研究実績の概要

ChatGPTなど自然言語文の自動生成技術が盛んに研究されており,自然言語処理の技術に社会的な注目が集まっている.
自然言語の基本単位となる単語の意味を捉えることは,自然言語処理の多くのタスクにおいて重要である.
単語分表現は,文書などに登場する単語を単語ベクト ルとして表現し,その後の翻訳や文書生成に使用される基本技術となっている.しかし,単語分散表現には,単語の出現頻度をエンコードしてしまう問題があり,本来捉えるべき単語の意味関係を的確に捉えられなくなる欠点がある.本年度,本研究では,頻度語が単語分散表現にエンコードされる問題を解消する目的のため,提案手法と既存手法の比較を行った.
既存手法として,敵対的学習により取り組む研究 [1]や word2vecにより得られた単語ベクトルの単語の分布において,もっとも分散が大きい方向の成分を取り除くことで,単語を空間に一様に配置する方法などがある [2].
[1]Chengyue Gong,Di He,Xu Tan,Tao Qin, Liwei Wang, and Tie-Yan Liu. 2018. FRAGE: Frequency- Agnostic Word Representation. In Advances in Neural Information Processing Systems(NeurIPS), volume 31. Curran Associates, Inc.
[2]Jiaqi Mu and Pramod Viswanath,All-but-the- top: Simple and effective postprocessing for word representations. In the Proceedings of the 6th International Conference on Learning Representations (ICLR), 2018.

現在までの達成度 (区分)
現在までの達成度 (区分)

2: おおむね順調に進展している

理由

単語分散表現の代表的な 手法であるword2vecのコーパスの単語出現頻度による影響があるため,提案手法をword2ecに組み込むことで,頻度の影響を軽減することを試みた.提案手法と既存手法の比較を行い,提案手法についての効果を確かめた.

今後の研究の推進方策

提案手法において,頻度の影響を軽減できたが,単語によっては影響が残っているものもある.よって,さらなる手法の改変により,頻度の影響を軽減し,さらに自然言語処理のタスクにおける効果も確かめる.

次年度使用額が生じた理由

研究成果発表のための国際会議における採択に時間を要しているため.

  • 研究成果

    (1件)

すべて 2024

すべて 雑誌論文 (1件) (うち査読あり 1件、 オープンアクセス 1件)

  • [雑誌論文] Investigating Word Vectors for the Negation of Verbs2024

    • 著者名/発表者名
      Tomoya Sasaki, Yuto Kikuchi, Kazuo Hara and Ikumi Suzuki
    • 雑誌名

      SN Computer Science

      巻: 5 ページ: 222

    • DOI

      10.1007/s42979-023-02554-x

    • 査読あり / オープンアクセス

URL: 

公開日: 2024-12-25  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi