研究課題/領域番号 |
19K12715
|
研究種目 |
基盤研究(C)
|
配分区分 | 基金 |
応募区分 | 一般 |
審査区分 |
小区分90020:図書館情報学および人文社会情報学関連
|
研究機関 | 島根大学 |
研究代表者 |
山田 泰寛 島根大学, 学術研究院理工学系, 助教 (50529609)
|
研究期間 (年度) |
2019-04-01 – 2024-03-31
|
研究課題ステータス |
完了 (2023年度)
|
配分額 *注記 |
2,470千円 (直接経費: 1,900千円、間接経費: 570千円)
2021年度: 1,040千円 (直接経費: 800千円、間接経費: 240千円)
2020年度: 910千円 (直接経費: 700千円、間接経費: 210千円)
2019年度: 520千円 (直接経費: 400千円、間接経費: 120千円)
|
キーワード | オープンデータ / テキストマイニング / タグ推薦 / 機械学習 |
研究開始時の研究の概要 |
近年,政府や地方自治体が保有する統計データをWeb上に公開する動きが広がっている.このようなデータはオープンデータと呼ばれる.オープンデータを公開する際には,データの内容を表わす語であるタグが付与される.本研究は,政府や自治体がオープンデータを公開する際の支援と,利用者がオープンデータを検索する際の支援を目的として,オープンデータに対してタグを自動付与する手法の開発を行う.
|
研究成果の概要 |
本研究は,政府がWeb上で公開している統計データ(オープンデータ呼ぶ)に対して,データセットの内容を表わす語であるタグ(ラベル)を自動で付与することを目的としている.1個のデータセットに対して複数のラベルを付与する手法であるマルチラベル分類を用いて,特に学習データにおいて出現回数の少ないラベルに着目し,それを付与することを目指している. 1個のデータセットにおいて,複数のラベルが同時に出現することを利用して,出現回数の少ないラベルの学習データを増やすオーバーサンプリング手法を提案した.また,オープンデータのタイトルや説明を入力として与えたとき,付与すべきタグを推薦するシステムの開発を行なった.
|
研究成果の学術的意義や社会的意義 |
学習データにおいて出現回数の少ないタグは推薦されにくいという問題に対して,疑似的にそれらの学習データを増やす手法を開発した.また,オープンデータのタイトルや説明を入力したとき,そのオープンデータに対して付与すべきタグを推薦するシステムを開発した.オープンデータを公開する際に,ふさわしいタグを付与することの一助となることが期待できる.また,付与されたタグがオープンデータの検索の際にも役立つことが期待できる.
|