研究課題/領域番号 |
21K12033
|
研究機関 | 岩手県立大学 |
研究代表者 |
鈴木 郁美 岩手県立大学, ソフトウェア情報学部, 准教授 (20637730)
|
研究分担者 |
原 一夫 山形大学, 理学部, 教授 (30467691)
|
研究期間 (年度) |
2021-04-01 – 2026-03-31
|
キーワード | 単語分散表現 |
研究実績の概要 |
ChatGPTなど自然言語文の自動生成技術が盛んに研究されており,自然言語処理の技術に社会的な注目が集まっている. 自然言語の基本単位となる単語の意味を捉えることは,自然言語処理の多くのタスクにおいて重要である.単語分表現は,文書などに登場する単語を単語ベクトルとして表現し,その後の翻訳や文書生成に使用される基本技術となっている. 単語ベクトルを生成するためにい くつかの方法が開発されており、その代表的なものはword2vec(Mikolov et al.、2013)であり,広く活用されている.word2vecは、単語の意味に関する「分布 仮説」(Harris、1954)に基づいている. つまり、単語の意味はコンテキストによって決定されるという仮説の上で成り立っている.否定語を推定することにおいても,似たような機能語をコンテキストとして共有するため,推定できるように思われる. 本年度は,単語に共起する出現頻度をもとに求められるPMI(PointーWise Mutual Information)とニューラルネットワークを用いて得られた単語ベクトル(word2vec)の頻度による影響を調べた.具体的には,計算機実験によりコーパスから単語を抽出し,word2vec と PMI(PointーWise Mutual Information)のコーパスにおける登場頻度と単語間の類似度の比較を行い,頻度の影響の違いについて調べた.
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
単語をベクトル空間に埋め込む際,使用されるコーパスの 影響を受けることが知られている. この影響を他の手法と比較することで,単語分散表現の代表的な手法であるword2vecのコーパスの単語出現頻度による影響を調べた. 具体的には本年度は,単語に共起する出現頻度をもとに求められるPMIとニューラルネットワークを用いて得られた単語ベクトルの頻度による影響を調べた.
|
今後の研究の推進方策 |
昨年度調査を行った単語に共起する出現頻度をもとに求められるPMIとニューラルネットワークを用いて得られた単語ベクトルの頻度による影響をもとに,改善を行うアルゴリズムの実装と実験を行う予定である.
|
次年度使用額が生じた理由 |
次年度使用額が生じた主な理由は,コロナ禍によるオンライン会議のためと論文投稿費用を使用しなかったためである.使用計画は,論文投稿,および,学会での情報収集・研究発表である.
|