• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2022 Fiscal Year Annual Research Report

Development of Automatic Label Information Acquisition Program from Plant Specimen Images Using Machine Learning and OCR

Research Project

Project/Area Number 19K06832
Research InstitutionUniversity of Hyogo

Principal Investigator

高野 温子  兵庫県立大学, 自然・環境科学研究所, 教授 (20344385)

Co-Investigator(Kenkyū-buntansha) 三橋 弘宗  兵庫県立大学, 自然・環境科学研究所, 講師 (50311486)
藤本 悠  芸術文化観光専門職大学, 芸術文化・観光学部, 准教授 (50609534)
Project Period (FY) 2019-04-01 – 2023-03-31
Keywords固有表現抽出 / 自然言語処理 / 光学文字認識 / 標本情報自動入力
Outline of Annual Research Achievements

22年度は分担者の藤本氏が開発したSurvey Data Collectorの使用法についての講習会を開催した他、更なる標本データ入力支援プログラムの開発のため、自然言語処理を扱えるプログラマと共に、標本画像からOCRでテキスト抽出→固有言語処理で産地や日付、採集者等、個々のデータにラベリングしDB化するプログラム開発を試みた。はじめ学名辞書や地名辞書、採集者リストとのテキストマッチングによるデータ抽出を試みたが、正答率が6割に届かなかったため、複数の自然言語処理AI+ディープラーニングで適切なテキストデータの構造化を試みた。
植物標本ラベルのOCR抽出テキストを手動でラベリングしたデータを1000件、地名や学名、日付などをランダムに抽出した水増しデータを4000件、それぞれ作成し、この2種のデータセットを学習データ、テストデータにわけ、3種の自然言語処理AI(SpaCy, Bert, Albert) に学習させてテストデータを解析させたところ、Bertが最も成績がよく正答率83%になった。続いてSpaCyが80%前後の正答率を示した。将来他の博物館に配布することを想定すると、Bertはかなり重いプログラムで動作させるのにグラフィックボードが必要になことから、汎用性を考えて以降のプログラム開発はSpaCyを採用することにし、標本画像を複数アップロードすると、OCRと固有表現抽出を行って標本データをcsv形式で出力できるプログラムを作成した。開発したプログラムのデモはURL(https://youtu.be/2jt_GMUqrWQ)で閲覧可能である。

  • Research Products

    (2 results)

All 2023 Other

All Presentation (1 results) Remarks (1 results)

  • [Presentation] 自然言語処理技術を用いた植物標本ラベルデータ自動抽出法の 開発2023

    • Author(s)
      髙野温子・小長井元
    • Organizer
      日本植物分類学会
  • [Remarks] OCRと自然言語処理を用いた植物標本画像からのデータ抽出プログラム(デモ)

    • URL

      https://youtu.be/2jt_GMUqrWQ

URL: 

Published: 2024-12-25  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi