研究課題
本研究は,政府や地方自治体が公開している統計データなどの政府オープンデータに対して,各データセットの内容を表す語であるラベル(タグ)を推定する手法の開発を目指している.特に頻度の低いラベルに着目し,それを推定することを目指している.最終年度は,頻度の低いラベルに対する学習データを疑似的に増やす手法であるSMOTE(Chawla et. al., 2002)を用いて,日本政府の政府オープンデータに対して,データセットに対するタグを推薦するシステムの開発を行なった.タグ推薦システムは,データセットのタイトルや概要を入力として与え,学習モデルから推定されたタグを表示する.この研究成果について,国際会議15th International Conference on Knowledge Management and Information Systemsにおいて発表を行なった.研究期間全体としては,1データセットにおけるラベルの共起を利用して学習データを疑似的に増やす手法を提案した.また,タグを推薦するシステムの開発を行なった.交付申請書に記載した内容と照らし合わせて,当初計画していた新しいタグの推薦などが行なえず,研究の一部のみ実施した.実験で使用したデータのある日本政府のオープンデータサイトData.go.jpは,2023年3月に新しいサイトe-Gov Data Portalに移行された.新しいサイトにおけるデータに対するシステムの構築が今後の課題である.その他に,昨年度に開発した頻度が低いラベルの学習データを疑似的に増やす手法とSMOTEなどの手法との精度の比較,実装したシステムをWeb上に公開することなどが今後の課題として挙げられる.また,研究期間において,大規模言語モデルなどの技術の進歩があったため,それらを用いた頻度の低いタグの推薦手法の開発も課題である.
すべて 2023
すべて 雑誌論文 (1件) (うち査読あり 1件) 学会発表 (1件) (うち国際学会 1件)
Proceedings of the 15th International Joint Conference on Knowledge Discovery, Knowledge Engineering and Knowledge Management (IC3K 2023)
巻: 3: KMIS ページ: 325-331
10.5220/0012260000003598