2022 Fiscal Year Final Research Report
Development of Automatic Label Information Acquisition Program from Plant Specimen Images Using Machine Learning and OCR
Project/Area Number |
19K06832
|
Research Category |
Grant-in-Aid for Scientific Research (C)
|
Allocation Type | Multi-year Fund |
Section | 一般 |
Review Section |
Basic Section 45030:Biodiversity and systematics-related
|
Research Institution | University of Hyogo (2022) The Museum of Nature and Human Activities, Hyogo (2019-2021) |
Principal Investigator |
Takano Atsuko 兵庫県立大学, 自然・環境科学研究所, 教授 (20344385)
|
Co-Investigator(Kenkyū-buntansha) |
三橋 弘宗 兵庫県立大学, 自然・環境科学研究所, 講師 (50311486)
藤本 悠 芸術文化観光専門職大学, 芸術文化・観光学部, 准教授 (50609534)
|
Project Period (FY) |
2019-04-01 – 2023-03-31
|
Keywords | 標本デジタル化 / OCR / NER / 自然言語処理 |
Outline of Final Research Achievements |
As per the original aim of developing an automatic label data extraction method from herbarium specimen images, a system was developed successfully using Optical Character Recognition (OCR) and Named Entity Recognition (NER: a sort of natural language processing technology). The system extracts label data in text using OCR from specimen image, split and recognize the extracted text into collection dates, collectors, scientific names of plants, etc. by NER, and output the data in CSV file format. Efforts were also made to disseminate the specimen image photographing equipment that had been developed prior to this research, and specimen image photographing equipment was introduced to various research institutions in Japan, including the University of Tokyo and Kyoto University, thereby contributing to accelerating the digitisation process of herbarium specimens in Japan.
|
Free Research Field |
植物分類学
|
Academic Significance and Societal Importance of the Research Achievements |
世界に約30億ある自然史標本のデジタル化とウェブ公開は、標本へのアクセシビリティと流動性を高め、生物多様性保全とその研究の促進に大いに貢献する。本研究により開発されたラベルデータ自動読み取りシステムは、現状は植物標本に特化したシステムではあるが、他の標本ラベル情報自動読み取りシステムも今回と同じ方法で開発可能であり、自然史標本全般の流動性を高めることに寄与しうる。2022年に改正された博物館法により所蔵資料のデジタルアーカイブ作成と公開が博物館の努力義務となった今、低コストで実現可能な資料デジタルアーカイブ作成手法を全国の博物館が求めており、本研究はその一つの答えを提供している。
|