政府・自治体オープンデータの公開と検索の支援を目的としたタグ付与に関する研究
Project/Area Number |
19K12715
|
Research Category |
Grant-in-Aid for Scientific Research (C)
|
Allocation Type | Multi-year Fund |
Section | 一般 |
Review Section |
Basic Section 90020:Library and information science, humanistic and social informatics-related
|
Research Institution | Shimane University |
Principal Investigator |
山田 泰寛 島根大学, 学術研究院理工学系, 助教 (50529609)
|
Project Period (FY) |
2019-04-01 – 2024-03-31
|
Project Status |
Granted (Fiscal Year 2022)
|
Budget Amount *help |
¥2,470,000 (Direct Cost: ¥1,900,000、Indirect Cost: ¥570,000)
Fiscal Year 2021: ¥1,040,000 (Direct Cost: ¥800,000、Indirect Cost: ¥240,000)
Fiscal Year 2020: ¥910,000 (Direct Cost: ¥700,000、Indirect Cost: ¥210,000)
Fiscal Year 2019: ¥520,000 (Direct Cost: ¥400,000、Indirect Cost: ¥120,000)
|
Keywords | オープンデータ / テキストマイニング / 機械学習 / タグ推薦 |
Outline of Research at the Start |
近年,政府や地方自治体が保有する統計データをWeb上に公開する動きが広がっている.このようなデータはオープンデータと呼ばれる.オープンデータを公開する際には,データの内容を表わす語であるタグが付与される.本研究は,政府や自治体がオープンデータを公開する際の支援と,利用者がオープンデータを検索する際の支援を目的として,オープンデータに対してタグを自動付与する手法の開発を行う.
|
Outline of Annual Research Achievements |
本研究は,政府や地方自治体が公開している統計データなどの政府オープンデータに対して,各データセットの内容を表す語であるラベル(タグ)を推定する手法の開発を目指している.特に,オープンデータに付与された頻度の低いラベルを推定することを目指している.しかし,頻度の低いラベルは学習データでの出現回数が少なく推定しにくい問題がある. この問題に対して,頻度が低いラベルの学習データを疑似的に増やす,新しいoversampling手法を提案し,ラベルの予測を行った.提案するoversampling手法は,1データセットにおけるラベルの共起を利用して学習データを増やす.提案手法は,初めに,各データセットに対して,特徴ベクトルとラベルの出現を表すラベルベクトルの組を作成する.頻度の低いラベルの特徴ベクトルから1つ選択し,中心ベクトルとする.中心ベクトルに対して,少なくとも1つラベルが共通し,かつ,ユークリッド距離の近い特徴ベクトルをk個選択する.k個の特徴ベクトルに重み付けし,重みを用いた確率で,k個の特徴ベクトルから1つ選択する.選択した近傍の特徴ベクトルと中心ベクトルとの間にランダムで1つ特徴ベクトルを生成し,新しい特徴ベクトルとする.新しい特徴ベクトルに対応する頻度の低いラベルを付与し,学習データに追加する.以上の手順を,頻度の低いラベルの学習データにおける出現回数が閾値に達するまで繰り返す. 実験では,DATA.GO.JP上の27,169件のデータセットを対象とし,学習手法はscikit-learnのナイーブベイズを用いた.5点交差検定で評価を行った.提案手法により少数ラベルについて予測回数の増加,再現率と精度の改善が見られた.
|
Current Status of Research Progress |
Current Status of Research Progress
4: Progress in research has been delayed.
Reason
昨年度までに,機械学習によるラベルの推定において,頻度が低いラベルの学習データを増やす新しいoversampling手法を提案した.課題として,マルチラベル分類を目的とした学習手法を用いた場合のラベルの推定精度を確かめる実験,マルチラベルが付与されている他のデータセットに対する実験,他のoversampling 手法との比較が挙げられる. 当初予定は3年計画であったが,2年ほど補助事業期間を延長しており,最終年度は上述した頻度の低いラベルの推定と,これまでのデータセットに付与されていない新しいタグを付与する手法の開発を行う予定である. 当初予定で最終年度に行う予定であったタグ推薦システムの構築については,日本政府データカタログサイトである「DATA.GO.JP」にあるタグを推薦するシステムを既に研究代表者のWebページにて公開している. 病気のために研究が当初計画より遅れており,補助事業期間を延長した.以上の理由により「遅れている」と評価した.
|
Strategy for Future Research Activity |
前年度に引き続き,政府オープンデータに既に付与されているタグを学習データとして,機械学習による頻度の低いタグの推定に関する研究を行う.マルチラベル分類を目的とした学習手法を用いた場合のラベルの推定精度を確かめる実験,他のマルチラベルが付与されているデータセットに対する実験,他のoversampling 手法との比較が挙げられる.実験結果から提案したoversampling手法の改良を行う. 政府オープンデータにおけるデータセットのタイトルや概要などから,これまでに付与されていない新しいタグを抽出する研究を行う予定である. これまでにタグ推薦システムを既に公開しているが,上述の研究成果が得られ次第,タグ推薦システムに組み込む予定である. 以上の研究における成果を国内研究会及び国際会議において発表する.
|
Report
(4 results)
Research Products
(3 results)