Project/Area Number |
19K12715
|
Research Category |
Grant-in-Aid for Scientific Research (C)
|
Allocation Type | Multi-year Fund |
Section | 一般 |
Review Section |
Basic Section 90020:Library and information science, humanistic and social informatics-related
|
Research Institution | Shimane University |
Principal Investigator |
Yamada Yasuhiro 島根大学, 学術研究院理工学系, 助教 (50529609)
|
Project Period (FY) |
2019-04-01 – 2024-03-31
|
Project Status |
Completed (Fiscal Year 2023)
|
Budget Amount *help |
¥2,470,000 (Direct Cost: ¥1,900,000、Indirect Cost: ¥570,000)
Fiscal Year 2021: ¥1,040,000 (Direct Cost: ¥800,000、Indirect Cost: ¥240,000)
Fiscal Year 2020: ¥910,000 (Direct Cost: ¥700,000、Indirect Cost: ¥210,000)
Fiscal Year 2019: ¥520,000 (Direct Cost: ¥400,000、Indirect Cost: ¥120,000)
|
Keywords | オープンデータ / テキストマイニング / タグ推薦 / 機械学習 |
Outline of Research at the Start |
近年,政府や地方自治体が保有する統計データをWeb上に公開する動きが広がっている.このようなデータはオープンデータと呼ばれる.オープンデータを公開する際には,データの内容を表わす語であるタグが付与される.本研究は,政府や自治体がオープンデータを公開する際の支援と,利用者がオープンデータを検索する際の支援を目的として,オープンデータに対してタグを自動付与する手法の開発を行う.
|
Outline of Final Research Achievements |
The purpose of this research is to automatically assign tags (labels) to statistical data published on the Web by the government, which is called open government data. We use multi-label classification, a method that assigns multiple labels to a single dataset. We are particularly interested in infrequent labels in training data and aim to assign them. Focusing on the simultaneous occurrence of multiple labels in a single dataset, we proposed an oversampling method to increase the training data for labels that appear infrequently. Also, we have developed a system that recommends tags to be assigned to a single dataset when the title or description of the dataset is given as input.
|
Academic Significance and Societal Importance of the Research Achievements |
学習データにおいて出現回数の少ないタグは推薦されにくいという問題に対して,疑似的にそれらの学習データを増やす手法を開発した.また,オープンデータのタイトルや説明を入力したとき,そのオープンデータに対して付与すべきタグを推薦するシステムを開発した.オープンデータを公開する際に,ふさわしいタグを付与することの一助となることが期待できる.また,付与されたタグがオープンデータの検索の際にも役立つことが期待できる.
|