2020 Fiscal Year Research-status Report
政府・自治体オープンデータの公開と検索の支援を目的としたタグ付与に関する研究
Project/Area Number |
19K12715
|
Research Institution | Shimane University |
Principal Investigator |
山田 泰寛 島根大学, 学術研究院理工学系, 助教 (50529609)
|
Project Period (FY) |
2019-04-01 – 2022-03-31
|
Keywords | オープンデータ / テキストマイニング / 機械学習 / タグ推薦 |
Outline of Annual Research Achievements |
本研究は,政府が公開している統計データなどの政府オープンデータに対して,データの内容を表わす語であるタグを推薦する手法の開発について研究を行う.令和2年度は,主に頻度の低いタグを推薦する手法の開発を行う予定だった.頻度の低いタグは,オープンデータの内容を表す専門的で具体的な語である可能性が高い.しかし,研究を進めるにあたり,頻度の低いタグを推薦する手法を評価するための,実験の枠組みが決められなかった.例えば,交差検定を用いて実験を行った場合,評価を行うためのデータにもタグの頻度は低いため,妥当な評価ができない.頻度の低いタグの推薦については,令和3年度も継続して研究を行う. このため,令和3年度後半に予定していたタグ推薦システムの開発と公開について先に研究を行った.このタグ推薦システムは,日本政府データカタログサイトである”DATA.GO.JP”にある6,859件のオープンデータを利用した.システムは,ユーザがオープンデータのタイトルを入力したとき,機械学習によりタグを出力する.日本政府のオープンデータへのタグ付与の方針は,4つのカテゴリの中に割り当てられたタグの中から,それぞれカテゴリでふさわしいタグを一つもしくは複数選ぶ.また,4つのカテゴリの中にないタグについては,ユーザがタグを決め付与する.このため,タグ推薦システムも,4つのカテゴリに割り当てられたタグの中からそれぞれタグを推薦し,また,そのカテゴリにないタグも過去に付与されたタグの中から推薦する.このタグ推薦システムについては,研究代表者のWebページにて公開している.
|
Current Status of Research Progress |
Current Status of Research Progress
3: Progress in research has been slightly delayed.
Reason
政府オープンデータに既に付与されているタグを学習データとして利用し,機械学習によるタグの推薦に関する研究の期間は,令和2年度末までを予定していた.しかし,研究実績の概要でも述べたように,継続して研究する必要があるため,令和3年度も引き続き,タグの推薦に関する研究を行う.また,申請書において,令和2年10月から令和3年9月に予定していた,これまでの政府オープンデータに付与されていない,新しいタグの付与に関する研究についても令和3年度に並行して研究を行う. 令和3年10月から令和4年3月に予定していた,タグ推薦システムの開発と公開については令和2年度に行った.頻度の低いタグの推薦,新しいタグの付与についても研究が進み次第,これらの成果をシステムに実装したい. 以上の理由により,「やや遅れている」と評価した.
|
Strategy for Future Research Activity |
前年度に引き続き,政府オープンデータに既に付与されているタグを学習データとして,機械学習による頻度の低いタグの推定に関する研究を行う.この研究については,令和2年度末までを計画していたが,より詳細な実験と考察のための時間を必要とするため,令和3年度末までに計画を変更する.また,これと並行して,政府オープンデータのタイトルや概要などから,これまでのオープンデータに付与されていない新しいタグを抽出する研究についても,令和3年度に行う.以上の研究における成果を国内研究会及び国際会議において発表する.
|
Causes of Carryover |
国際会議への参加や原稿の英文校正費として使用する予定であったが,研究成果の発表に至らなかったため,次年度に繰り越した.繰り越した金額は,今年度の国際会議への参加費や投稿のための原稿の英文校正費として使用する予定である.また,タグ推薦システムとして,高いスペックのPCが求められる場合は,それについて使用する予定である.
|