2023 Fiscal Year Annual Research Report
政府・自治体オープンデータの公開と検索の支援を目的としたタグ付与に関する研究
Project/Area Number |
19K12715
|
Research Institution | Shimane University |
Principal Investigator |
山田 泰寛 島根大学, 学術研究院理工学系, 助教 (50529609)
|
Project Period (FY) |
2019-04-01 – 2024-03-31
|
Keywords | オープンデータ / テキストマイニング / 機械学習 / タグ推薦 |
Outline of Annual Research Achievements |
本研究は,政府や地方自治体が公開している統計データなどの政府オープンデータに対して,各データセットの内容を表す語であるラベル(タグ)を推定する手法の開発を目指している.特に頻度の低いラベルに着目し,それを推定することを目指している. 最終年度は,頻度の低いラベルに対する学習データを疑似的に増やす手法であるSMOTE(Chawla et. al., 2002)を用いて,日本政府の政府オープンデータに対して,データセットに対するタグを推薦するシステムの開発を行なった.タグ推薦システムは,データセットのタイトルや概要を入力として与え,学習モデルから推定されたタグを表示する.この研究成果について,国際会議15th International Conference on Knowledge Management and Information Systemsにおいて発表を行なった. 研究期間全体としては,1データセットにおけるラベルの共起を利用して学習データを疑似的に増やす手法を提案した.また,タグを推薦するシステムの開発を行なった.交付申請書に記載した内容と照らし合わせて,当初計画していた新しいタグの推薦などが行なえず,研究の一部のみ実施した. 実験で使用したデータのある日本政府のオープンデータサイトData.go.jpは,2023年3月に新しいサイトe-Gov Data Portalに移行された.新しいサイトにおけるデータに対するシステムの構築が今後の課題である.その他に,昨年度に開発した頻度が低いラベルの学習データを疑似的に増やす手法とSMOTEなどの手法との精度の比較,実装したシステムをWeb上に公開することなどが今後の課題として挙げられる.また,研究期間において,大規模言語モデルなどの技術の進歩があったため,それらを用いた頻度の低いタグの推薦手法の開発も課題である.
|