研究課題/領域番号 |
19K12715
|
研究種目 |
基盤研究(C)
|
配分区分 | 基金 |
応募区分 | 一般 |
審査区分 |
小区分90020:図書館情報学および人文社会情報学関連
|
研究機関 | 島根大学 |
研究代表者 |
山田 泰寛 島根大学, 学術研究院理工学系, 助教 (50529609)
|
研究期間 (年度) |
2019-04-01 – 2024-03-31
|
キーワード | オープンデータ / テキストマイニング / タグ推薦 |
研究成果の概要 |
本研究は,政府がWeb上で公開している統計データ(オープンデータ呼ぶ)に対して,データセットの内容を表わす語であるタグ(ラベル)を自動で付与することを目的としている.1個のデータセットに対して複数のラベルを付与する手法であるマルチラベル分類を用いて,特に学習データにおいて出現回数の少ないラベルに着目し,それを付与することを目指している. 1個のデータセットにおいて,複数のラベルが同時に出現することを利用して,出現回数の少ないラベルの学習データを増やすオーバーサンプリング手法を提案した.また,オープンデータのタイトルや説明を入力として与えたとき,付与すべきタグを推薦するシステムの開発を行なった.
|
自由記述の分野 |
図書館情報学および人文社会情報学関連
|
研究成果の学術的意義や社会的意義 |
学習データにおいて出現回数の少ないタグは推薦されにくいという問題に対して,疑似的にそれらの学習データを増やす手法を開発した.また,オープンデータのタイトルや説明を入力したとき,そのオープンデータに対して付与すべきタグを推薦するシステムを開発した.オープンデータを公開する際に,ふさわしいタグを付与することの一助となることが期待できる.また,付与されたタグがオープンデータの検索の際にも役立つことが期待できる.
|