• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to previous page

Development of Automatic Label Information Acquisition Program from Plant Specimen Images Using Machine Learning and OCR

Research Project

Project/Area Number 19K06832
Research Category

Grant-in-Aid for Scientific Research (C)

Allocation TypeMulti-year Fund
Section一般
Review Section Basic Section 45030:Biodiversity and systematics-related
Research InstitutionUniversity of Hyogo (2022)
The Museum of Nature and Human Activities, Hyogo (2019-2021)

Principal Investigator

Takano Atsuko  兵庫県立大学, 自然・環境科学研究所, 教授 (20344385)

Co-Investigator(Kenkyū-buntansha) 三橋 弘宗  兵庫県立大学, 自然・環境科学研究所, 講師 (50311486)
藤本 悠  芸術文化観光専門職大学, 芸術文化・観光学部, 准教授 (50609534)
Project Period (FY) 2019-04-01 – 2023-03-31
Project Status Completed (Fiscal Year 2022)
Budget Amount *help
¥4,290,000 (Direct Cost: ¥3,300,000、Indirect Cost: ¥990,000)
Fiscal Year 2022: ¥780,000 (Direct Cost: ¥600,000、Indirect Cost: ¥180,000)
Fiscal Year 2021: ¥1,040,000 (Direct Cost: ¥800,000、Indirect Cost: ¥240,000)
Fiscal Year 2020: ¥780,000 (Direct Cost: ¥600,000、Indirect Cost: ¥180,000)
Fiscal Year 2019: ¥1,690,000 (Direct Cost: ¥1,300,000、Indirect Cost: ¥390,000)
Keywords標本デジタル化 / OCR / NER / 自然言語処理 / 固有表現抽出 / 光学文字認識 / 標本情報自動入力 / AI / テキスト抽出 / データベース / データベース構築 / 植物標本画像化
Outline of Research at the Start

植物標本画像からラベル部分を認識し、OCRでテキスト抽出するプログラムと、テキストの属性を判断してDBの各項目へデータ振り分けを行うプログラムの開発を行う。それら2つのプログラムをオープンソースのデジタルアーカイブ管理システム「Survey Data Collector」へ実装する。実装が完了した段階で、植物標本の高速画像撮影法と合わせて国内各地でデジタルアーカイブシステムの使用説明会を開催し、希望する自然史系博物館には無償配布し、日本国内の植物標本デジタル化と整理の促進を目指す。

Outline of Final Research Achievements

As per the original aim of developing an automatic label data extraction method from herbarium specimen images, a system was developed successfully using Optical Character Recognition (OCR) and Named Entity Recognition (NER: a sort of natural language processing technology). The system extracts label data in text using OCR from specimen image, split and recognize the extracted text into collection dates, collectors, scientific names of plants, etc. by NER, and output the data in CSV file format. Efforts were also made to disseminate the specimen image photographing equipment that had been developed prior to this research, and specimen image photographing equipment was introduced to various research institutions in Japan, including the University of Tokyo and Kyoto University, thereby contributing to accelerating the digitisation process of herbarium specimens in Japan.

Academic Significance and Societal Importance of the Research Achievements

世界に約30億ある自然史標本のデジタル化とウェブ公開は、標本へのアクセシビリティと流動性を高め、生物多様性保全とその研究の促進に大いに貢献する。本研究により開発されたラベルデータ自動読み取りシステムは、現状は植物標本に特化したシステムではあるが、他の標本ラベル情報自動読み取りシステムも今回と同じ方法で開発可能であり、自然史標本全般の流動性を高めることに寄与しうる。2022年に改正された博物館法により所蔵資料のデジタルアーカイブ作成と公開が博物館の努力義務となった今、低コストで実現可能な資料デジタルアーカイブ作成手法を全国の博物館が求めており、本研究はその一つの答えを提供している。

Report

(5 results)
  • 2022 Annual Research Report   Final Research Report ( PDF )
  • 2021 Research-status Report
  • 2020 Research-status Report
  • 2019 Research-status Report
  • Research Products

    (10 results)

All 2023 2022 2020 Other

All Journal Article (3 results) (of which Int'l Joint Research: 1 results,  Peer Reviewed: 3 results,  Open Access: 3 results) Presentation (2 results) Remarks (5 results)

  • [Journal Article] Development of a system for the automated identification of herbarium specimens with high accuracy.2022

    • Author(s)
      Masato Shirai, Atsuko Takano, Takahide Kurosawa, Masahito Inoue, Shuichiro Tagane, Tomoya Tanimoto, Tohru Koganeyama, Hirayuki Sato, Tomohiko Terasawa, Takehito Horie, Isao Mandai, Takashi Akihiro
    • Journal Title

      Scientific Reports

      Volume: - Issue: 1 Pages: 8066-8066

    • DOI

      10.1038/s41598-022-11450-y

    • Related Report
      2021 Research-status Report
    • Peer Reviewed / Open Access
  • [Journal Article] 植物標本デジタル画像化とOCRによるラベルデータ自動読みとり手法の開発2020

    • Author(s)
      高野 温子、堀内 保彦、青木 滉太、藤本 悠、三橋 弘宗
    • Journal Title

      The Journal of Phytogeography and Taxonomy

      Volume: 68 Issue: 2 Pages: 103

    • DOI

      10.18942/chiribunrui.0682-05

    • NAID

      130007951894

    • ISSN
      0388-6212, 2433-0469
    • Related Report
      2020 Research-status Report
    • Peer Reviewed / Open Access
  • [Journal Article] A Narrow Endemic or a Species Showing Disjunct Distribution? Studies on Meehania montis-koyae Ohwi (Lamiaceae)2020

    • Author(s)
      Takano Atsuko、Sakaguchi Shota、Li Pan、Matsuo Ayumi、Suyama Yoshihisa、Xia Guo-Hua、Liu Xi、Isagi Yuji
    • Journal Title

      Plants

      Volume: 9 Issue: 9 Pages: 1159-1159

    • DOI

      10.3390/plants9091159

    • Related Report
      2020 Research-status Report
    • Peer Reviewed / Open Access / Int'l Joint Research
  • [Presentation] 自然言語処理技術を用いた植物標本ラベルデータ自動抽出法の 開発2023

    • Author(s)
      髙野温子・小長井元
    • Organizer
      日本植物分類学会
    • Related Report
      2022 Annual Research Report
  • [Presentation] AI画像認識技術を使って約2200種の植物の名前を高精度(96%)に判定するシステムの開発.2022

    • Author(s)
      秋廣高志・白井匡人・高野温子・黒沢高秀・井上雅仁・田金秀一郎・谷本朋也・小金山透・佐藤平行・寺澤知彦・堀江岳人・萬代功.
    • Organizer
      日本植物分類学会
    • Related Report
      2021 Research-status Report
  • [Remarks] OCRと自然言語処理を用いた植物標本画像からのデータ抽出プログラム(デモ)

    • URL

      https://youtu.be/2jt_GMUqrWQ

    • Related Report
      2022 Annual Research Report
  • [Remarks] ひとはく研究員個人業績紹介

    • URL

      https://www.hitohaku.jp/researchers/takano.html

    • Related Report
      2020 Research-status Report
  • [Remarks] 小・中規模植物標本庫に適用可能な、簡便・低予算で最低限の画質を担保した植物標本画像撮影方法の開発

    • URL

      https://www.hitohaku.jp/research/h-research/2019.html#2019-06-takano

    • Related Report
      2020 Research-status Report
  • [Remarks] ひとはく資料の管理と活用

    • URL

      https://www.hitohaku.jp/material/innovation.html

    • Related Report
      2019 Research-status Report
  • [Remarks] 植物標本デジタル化と植物標本画像からのラベル自動読み取りシステムの開発

    • URL

      https://www.hitohaku.jp/exhibition/planning/2-4_2020-takano.pdf

    • Related Report
      2019 Research-status Report

URL: 

Published: 2019-04-18   Modified: 2024-12-25  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi