研究課題/領域番号 |
21K12033
|
研究機関 | 長崎大学 |
研究代表者 |
鈴木 郁美 長崎大学, 情報データ科学部, 准教授 (20637730)
|
研究分担者 |
原 一夫 山形大学, 理学部, 准教授 (30467691)
|
研究期間 (年度) |
2021-04-01 – 2026-03-31
|
キーワード | 単語分散表現 / word2vec |
研究実績の概要 |
人工知能(AI)技術の発達により、自然言語文の自動生成が大幅に進んでいる.たとえば、AIを使用して本物のように見える偽のニュース記事を生成するテクノロジーの出現(Brown et al.、2020)やGoogle翻訳(Wu et al.、2016)はそれらに類似した翻訳を提供できるようになった.単語ベクトルを生成するためにいくつかの方法が開発されており、その代表的なものはword2vec(Mikolov et al.、2013)であり,広く活用されている.word2vecは、単語の意味に関する「分布仮説」(Harris、1954)に基づいている.つまり、単語の意味はコンテキストによって決定されるという仮説の上で成り立っている.否定語を推定することにおいても,似たような機能語をコンテキストとして共有するため,推定できるように思われる. たとえば、動詞「go」とその否定「do not go」は,I go to school.や I go to the office. また,I do not go to school. やI do not go to the office. のようになる.よって,単語アナロジータスクの v_do_not_go - v_go = v_do_not_choose - v_choose が成立するように思われる.しかし,日本語の否定語の推定は難しいことが報告されている (Yoshii et al., 2015) .本年度は,否定語の推定の難しさの要員を調査し,報告を行った.
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
word2vecは,単語をベクトル空間に埋め込んで、単語の分散表現を得る代表的な方法である.しかし,単語をベクトル空間に埋め込む際,使用されるコーパスの影響を受けることが知られている.本年度はその影響を単語アナロジータスクにおける否定語の推定において,精度が落ちる傾向にある理由の調査を行った.否定語を含む文脈は機能語は共有するが,内容語は共有しなていない.そのため否定語の推定が難しくなる傾向にある.そして,さらに周辺語の共有頻度が推定精度に影響を及ぼすことがわかった.以上の報告を国際会議で発表を行うことができた.
|
今後の研究の推進方策 |
今後はword2vecの学習に使用されるコンテクストの頻度の影響を軽減するための手法を確立する予定である.
|
次年度使用額が生じた理由 |
国際会議がオンラインでの発表となり,旅費などが使用されなかった.次年度使用額については,国際会議における発表及び論文投稿に使用する予定である.
|