2021 Fiscal Year Research-status Report
政府・自治体オープンデータの公開と検索の支援を目的としたタグ付与に関する研究
Project/Area Number |
19K12715
|
Research Institution | Shimane University |
Principal Investigator |
山田 泰寛 島根大学, 学術研究院理工学系, 助教 (50529609)
|
Project Period (FY) |
2019-04-01 – 2023-03-31
|
Keywords | オープンデータ / テキストマイニング / 機械学習 / タグ推薦 |
Outline of Annual Research Achievements |
本研究は,政府や地方自治体が公開している統計データなどの政府オープンデータに対して,各データセットの内容を表す語であるタグを推定する手法の開発を目指している.特に,既に公開されているオープンデータに付与された頻度の低いタグを,新しいデータセットに対して推薦することを目指している.しかし,頻度の低いタグは推定しにくい問題がある. これまで,交差検定を用いてタグ推定の実験を行う場合,学習データにおいて頻度の低いタグは,テストデータにおいても頻度は低いため,妥当な評価ができないという問題があった.そこで,学習データとテストデータにおいて,学習データに出現するタグをテストデータに移すことで,テストデータにおいて頻度の低いタグの出現回数を増やすプログラムを作成し,実験データを作成することとした. 次に,学習データにおいて頻度の低いタグの特徴ベクトルを増やすためのプログラムの開発を行った.また,頻度の低いタグは頻度の高いタグと比べて推定しにくいため,学習データにおいて頻度の低いタグと頻度の高いタグを分けるプログラムを作成した. 昨年度から引き続き,日本政府データカタログサイトである「DATA.GO.JP」にあるタグを推薦するシステムを研究代表者のWebページにて公開し,誰でもシステムを使用することができる.今後の計画として,これまで作成したプログラムと実験データを用いて実験を行い,成果を対外発表する. 病気のために研究が当初計画より遅れており,これまで対外発表のための成果を得ることができなかった.補助事業期間を延長した.
|
Current Status of Research Progress |
Current Status of Research Progress
4: Progress in research has been delayed.
Reason
昨年度までに,実験において,頻度の低いタグは評価を行うためのデータにおいても頻度は低いため,妥当な評価ができないという問題があった.本年度は,評価のための実験データを作成するプログラムの開発を行った. 学習データにおいて頻度の低いタグの特徴ベクトルを増やすためのプログラムの開発を行った.また,頻度の低いタグは頻度の高いタグと比べて推定しにくいため,学習データを頻度の低いタグと頻度の高いタグの2つの学習データに分けるプログラムを作成した.今後はこれらをもとに実験を進め,対外発表を行う予定である. 昨年度から引き続き,日本政府データカタログサイトである「DATA.GO.JP」にあるタグを推薦するシステムを研究代表者のWebページにて公開している. 病気のために研究が当初計画より遅れており,補助事業期間を延長した.以上の理由により「遅れている」と評価した.
|
Strategy for Future Research Activity |
前年度に引き続き,政府オープンデータに既に付与されているタグを学習データとして,機械学習による頻度の低いタグの推定に関する研究を行う.令和3年度に作成した頻度の低いタグの学習データを増やす手法と頻度の低いタグのための実験データを作成する手法をもとに実験を進める. また,政府オープンデータにおけるデータセットのタイトルや概要などから,これまでに付与されていない新しいタグを抽出する研究を行う. 以上の研究における成果を国内研究会及び国際会議において発表する.
|
Causes of Carryover |
国際会議への参加や原稿の英文校正費として使用する予定であったが,研究成果の発表に至らなかったため,次年度に繰り越した.繰り越した金額は,今年度の国際会議への参加費や投稿のための原稿の英文校正費として使用する予定である.
|