2021 Fiscal Year Research-status Report
Project/Area Number |
21K12033
|
Research Institution | Nagasaki University |
Principal Investigator |
鈴木 郁美 長崎大学, 情報データ科学部, 准教授 (20637730)
|
Co-Investigator(Kenkyū-buntansha) |
原 一夫 山形大学, 理学部, 准教授 (30467691)
|
Project Period (FY) |
2021-04-01 – 2026-03-31
|
Keywords | 単語分散表現 / word2vec |
Outline of Annual Research Achievements |
人工知能(AI)技術の発達により、自然言語文の自動生成が大幅に進んでいる.たとえば、AIを使用して本物のように見える偽のニュース記事を生成するテクノロジーの出現(Brown et al.、2020)やGoogle翻訳(Wu et al.、2016)はそれらに類似した翻訳を提供できるようになった.単語ベクトルを生成するためにいくつかの方法が開発されており、その代表的なものはword2vec(Mikolov et al.、2013)であり,広く活用されている.word2vecは、単語の意味に関する「分布仮説」(Harris、1954)に基づいている.つまり、単語の意味はコンテキストによって決定されるという仮説の上で成り立っている.否定語を推定することにおいても,似たような機能語をコンテキストとして共有するため,推定できるように思われる. たとえば、動詞「go」とその否定「do not go」は,I go to school.や I go to the office. また,I do not go to school. やI do not go to the office. のようになる.よって,単語アナロジータスクの v_do_not_go - v_go = v_do_not_choose - v_choose が成立するように思われる.しかし,日本語の否定語の推定は難しいことが報告されている (Yoshii et al., 2015) .本年度は,否定語の推定の難しさの要員を調査し,報告を行った.
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
word2vecは,単語をベクトル空間に埋め込んで、単語の分散表現を得る代表的な方法である.しかし,単語をベクトル空間に埋め込む際,使用されるコーパスの影響を受けることが知られている.本年度はその影響を単語アナロジータスクにおける否定語の推定において,精度が落ちる傾向にある理由の調査を行った.否定語を含む文脈は機能語は共有するが,内容語は共有しなていない.そのため否定語の推定が難しくなる傾向にある.そして,さらに周辺語の共有頻度が推定精度に影響を及ぼすことがわかった.以上の報告を国際会議で発表を行うことができた.
|
Strategy for Future Research Activity |
今後はword2vecの学習に使用されるコンテクストの頻度の影響を軽減するための手法を確立する予定である.
|
Causes of Carryover |
国際会議がオンラインでの発表となり,旅費などが使用されなかった.次年度使用額については,国際会議における発表及び論文投稿に使用する予定である.
|