研究実績の概要 |
研究2年度では、それまで使用していたWord2Vecによる単語のベクトル化に加えてFastTextという新しいベクトル化手法を導入し、Word2VecとFastTextで得られるベクトルの違いについて調査した。その結果、FastTextはWord2Vecに比べて、類似度が中間的な単語が多く抽出されることが分かった。またそれを用いてニューラルネットワークによる単語提案手法を構築中である。 また、研究2年度から導入した新しい試みとして述語ベクトル法があった。研究最終年度ではこれを推進し、オープンデータ間の類似度の算出を行った。述語ベクトル法では、あらかじめ与えられている軸について、その軸に当てはまる(1)か当てはまらない(0)かの判定を行い、1つの列内のすべてのデータについて平均した値を計算し、それらを軸の数だけ並べてベクトル化する。得られた列ベクトルはその列がそれぞれの軸についてどの程度の合致度を持つかの指標となる。 この列ベクトルを利用して、オープンデータ間の類似度を計算した。類似度の計算には以下のA,B,Cの3つの指揮を用いた。A:列ベクトル間類似度の単純平均値、B:ガウス分布で重みを付けた平均値、C:しきい値を上回ったものだけの平均値。全国の自治体が公開している633のオープンデータのCSVに対して、上記の3通り計算方法で類似度を計算した。これらの結果より、述語ベクトルを用いて列間の類似度を算出し、それを用いてオープンデータ間の類似度を計算することが可能であることを示した。
|