研究課題/領域番号 |
19K12715
|
研究機関 | 島根大学 |
研究代表者 |
山田 泰寛 島根大学, 学術研究院理工学系, 助教 (50529609)
|
研究期間 (年度) |
2019-04-01 – 2022-03-31
|
キーワード | オープンデータ / テキストマイニング / 機械学習 / タグ推薦 |
研究実績の概要 |
本研究は,政府や自治体が公表している政府オープンデータを対象として,データの内容を表すタグの推薦手法の開発を行う.タグは,データの内容を理解することや,データを検索する時に役立つ.本研究では,出現頻度の低いタグに着目する.頻度の低いタグは,オープンデータの内容について具体的で専門的な意味を持つ語であり,特定性の高い語である.このため,頻度の低いタグは,データセットの内容を理解すること,また検索結果を絞り込むことに役立つ. 令和元年度は,政府オープンデータに既に付与されているタグを学習データとして,機械学習を利用したタグの推定に関する研究を行った.機械学習のライブラリとしてPythonのscikit-learnを利用した.頻度の低いタグは,学習データ中の出現が少ないため,タグが未知のオープンデータに対して推定が難しい問題がある.提案手法は,頻度の低いタグと共起するタグのベクトルを利用する.頻度の低いタグのデータ数を増やし,分類器の学習を行うことで,頻度の低いタグに対する推薦を行った.共起するタグとして,頻度の低いタグと共起する回数が最も多いタグを選ぶ場合,もしくは,頻度の低いタグと共起するタグからランダムに選ぶ場合,それぞれについて実験を行った. 再現率と精度による評価実験において,入力データを,学習するためのデータと,タグの推定が正しいか評価するためのデータに分けて実験を行った.しかし,頻度の低いタグは,推定を評価するためのデータにおいても頻度が低いため,正しく推定できているか判断しにくいことが多かった.このため,タグを推定するための実験の枠組みについて再考する必要があることが分かった.この研究は,令和2年度も引き続き行う.
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
3: やや遅れている
理由
政府オープンデータに既に付与されているタグを学習データとして利用したタグの推薦に関する研究の期間は,平成31年4月から令和2年9月までを計画していた.これに従って,令和元年度から研究を進めており,令和2年度も,引き続きタグの推薦に関する研究を行う. 令和元年度は,頻度の低いタグと共起するタグのベクトル利用したタグの推定手法について研究を行った.実験では,入力データを,学習のためのデータと,タグの推定が正しいか評価するためのデータに分けて実験を行った.しかし,頻度の低いタグは,推定を評価するためのデータにおいても頻度が低いため,正しく推定できているか判断しにくい問題があった.このため,タグの推定手法を評価するための実験の枠組みについて再考し,より詳細な実験が必要であることが分かった. 本研究の中で,頻度の低いタグの推定が重要な部分であるため,その研究期間を令和2年度末までに計画を変更する.また,令和2年10月から令和3年9月に予定していた,政府オープンデータそのものからのタグの抽出は,令和3年4月からに変更する.以上の理由により,「やや遅れている」と評価した.
|
今後の研究の推進方策 |
前年度に引き続き,令和2年度は,政府オープンデータに既に付与されているタグを学習データとして利用したタグの推薦に関する研究を行う.申請時では,この内容については,令和2年9月までを計画していた.しかし,本研究の中でこの技術が重要な部分であり,また,より詳細な実験と考察のための時間を必要とするため,令和2年度末までに計画を変更する.国内研究会及び国際会議において研究成果を公表する. 令和2年10月から,政府オープンデータのタイトルや概要などから,新しいタグを抽出する研究を行う計画であったが,上記の理由により,令和3年4月からに計画を変更する.
|
次年度使用額が生じた理由 |
物品費として,カスタマイズPCを40万円で計上していたが,これより安く購入できたため,その分を次年度に繰り越した.繰り越した金額は,国際会議への投稿のための原稿の英文校正費として使用する予定である.
|