2021 年度実施状況報告書

単語分散表現の頻度エンコード問題の解消

研究課題

研究課題/領域番号	21K12033
研究機関	長崎大学
研究代表者	鈴木郁美長崎大学, 情報データ科学部, 准教授 (20637730)
研究分担者	原一夫山形大学, 理学部, 准教授 (30467691)
研究期間 (年度)	2021-04-01 – 2026-03-31
キーワード	単語分散表現 / word2vec
研究実績の概要	人工知能（AI）技術の発達により、自然言語文の自動生成が大幅に進んでいる．たとえば、AIを使用して本物のように見える偽のニュース記事を生成するテクノロジーの出現（Brown et al.、2020）やGoogle翻訳（Wu et al.、2016）はそれらに類似した翻訳を提供できるようになった．単語ベクトルを生成するためにいくつかの方法が開発されており、その代表的なものはword2vec（Mikolov et al.、2013）であり，広く活用されている．word2vecは、単語の意味に関する「分布仮説」（Harris、1954）に基づいている．つまり、単語の意味はコンテキストによって決定されるという仮説の上で成り立っている．否定語を推定することにおいても，似たような機能語をコンテキストとして共有するため，推定できるように思われる. たとえば、動詞「go」とその否定「do not go」は，I go to school．や I go to the office. また，I do not go to school. やI do not go to the office. のようになる．よって，単語アナロジータスクの v_do_not_go - v_go = v_do_not_choose - v_choose が成立するように思われる．しかし，日本語の否定語の推定は難しいことが報告されている (Yoshii et al., 2015) ．本年度は，否定語の推定の難しさの要員を調査し，報告を行った．
現在までの達成度 (区分)	現在までの達成度 (区分) 2: おおむね順調に進展している理由 word2vecは，単語をベクトル空間に埋め込んで、単語の分散表現を得る代表的な方法である．しかし，単語をベクトル空間に埋め込む際，使用されるコーパスの影響を受けることが知られている．本年度はその影響を単語アナロジータスクにおける否定語の推定において，精度が落ちる傾向にある理由の調査を行った．否定語を含む文脈は機能語は共有するが，内容語は共有しなていない．そのため否定語の推定が難しくなる傾向にある．そして，さらに周辺語の共有頻度が推定精度に影響を及ぼすことがわかった．以上の報告を国際会議で発表を行うことができた．
今後の研究の推進方策	今後はword2vecの学習に使用されるコンテクストの頻度の影響を軽減するための手法を確立する予定である．
次年度使用額が生じた理由	国際会議がオンラインでの発表となり，旅費などが使用されなかった．次年度使用額については，国際会議における発表及び論文投稿に使用する予定である．

研究成果
(1件)

すべて雑誌論文 (1件) (うち査読あり 1件)

[雑誌論文] Semantic Entanglement on Verb Negation2021
- 著者名/発表者名
  Yuto Kikuchi, Kazuo Hara, Ikumi Suzuki
- 雑誌名
  
  Proceedings of the 10th International Conference on Data Science, Technology and Applications
  
  巻: - ページ: 71-78
- DOI
  10.5220/0010560000710078
- 査読あり