• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2019 Fiscal Year Research-status Report

Development of Automatic Label Information Acquisition Program from Plant Specimen Images Using Machine Learning and OCR

Research Project

Project/Area Number 19K06832
Research InstitutionThe Museum of Nature and Human Activities, Hyogo

Principal Investigator

高野 温子  兵庫県立人と自然の博物館, その他部局等, 研究員(移行) (20344385)

Co-Investigator(Kenkyū-buntansha) 三橋 弘宗  兵庫県立大学, 自然・環境科学研究所, 講師 (50311486)
藤本 悠  奈良大学, 文学部, 講師 (50609534)
Project Period (FY) 2019-04-01 – 2023-03-31
KeywordsOCR / データベース構築
Outline of Annual Research Achievements

2019年度は、無償利用が可能なOCRソフトの比較選定、植物標本画像からのラベルデータOCR読み取りシステムの開発・導入と、ボランティアによるデータ入力の試行を行った。TesseractOCR等種々のフリーOCRソフトを比較した結果、GoogleドライブのOCR機能が優れていることがわかった。そこで、自館のウェブサーバー上で、ラベル切り出し画像をgoogleドライブにアップロード→OCR結果とDB入力フィールド・標本画像をブラウザ上に表示→標本画像を見ながらOCR読みとり結果を修正し、各データ項目に割り付けて保存→管理者チェックを行った後csvファイルで出力。いうプログラムを作った。また入力支援のため、博物館既存資料DBの学名辞書および地名辞書の移植も行った。
植物を専門にしていないアルバイト3名に、完成したβ版プログラムを利用した標本ラベルデータ入力作業を依頼し、データ入力に戸惑いを覚える箇所、間違いが多く発生する箇所等、実際のシステム運用上の問題点を洗い出した。結果、一番戸惑うのは地名と緯度経度に関する入力であることがわかった。人と自然の博物館の標本は7,8割兵庫県産であり、緯度経度情報は産地情報からウェブ地理院地図を利用して取得してもらっているが、土地勘のない方には困難な作業のようでであった。また山や川などの自然地形のみが書かれたラベルデータの入力は、全員がとまどっていた。また、当館所蔵の標本ラベルに書かれた緯度経度は9割方60進法の緯度経度表記だが、博物館の資料DBの緯度経度情報は10進法で格納している都合上、入力画面に10進法データと60進法データを入力するセルを2種類準備した。入力依頼の際に説明したものの10進法のセルに60進法のデータが入力される、あるいはその逆のエラーが頻発したことから、外部ボランティアに入力を依頼する際には、より丁寧な説明が必要と考えられる。

Current Status of Research Progress
Current Status of Research Progress

2: Research has progressed on the whole more than it was originally planned.

Reason

OCRアプリを複数試行し、OCR読みとり結果を組み込んだラベルデータ自動読みとりシステムを一応完成できたため。ただ排他制御がうまくいっておらず、複数人でシステムにログインするとエラーが頻発したので、下記のテレワーク対応と同時に修正を試みている。

Strategy for Future Research Activity

コロナ禍の影響が日増しに大きくなり、申請者の所属する博物館も臨時休館を余儀なくされたため、急遽一部研究計画を変更し、先に館外からOCRラベル情報入力システムにアクセスし、ラベルデータ入力ができるよう博物館資料DBの修正依頼を行った(県費)。現在システム改修作業中だが。修正が終わり次第、研究協力者や分担者と館外からの入力を試行し、修正点など確認するとともに、現在自宅待機中のアルバイトにもテレワークとしてラベルデータ入力を依頼し、問題点や課題などをヒアリングする。目指す外部ボランティアによる入力を、先取りして実施する形となる。
昨年明らかになった課題に基づき入力システムのブラッシュアップ、ないし入力フローの再検討を行う。緯度経度情報と市町名や自然地形情報の入力で問題が頻発したため、緯度経度情報のボランティア入力をいったんあきらめ、管理者側で一括して緯度経度データを外部アドレスマッチングサイト(例えば東京大学空間情報科学研究センターのウェブサイト等)で取得する方法を試行し、現状のアルバイトをトレーニングする方法とどちらが効率的かを比較する。ただし、いたずらに管理者の手間が増えるのを防ぐため、外部アドレスマッチングサイトで取得できないと想定される地名表記(戦前の標本で地名表記が旧型、○○山や○○川など自然地形のみの表記)の場合は、引き続き入力者におおよその緯度経度を探して入力頂くことを目指す。
ただし上記の研究計画が進行できるかどうかは、アルバイト雇用およびアルバイトと直接のコミュニケーションが困難な状況がいつまで続くかに依存している。

Causes of Carryover

当初の予定では、「日本植物分類学会 第19大会(岐阜大会)」に参加し、研究課題に関する情報を収集する予定であったが、2020年2月21日に新型コロナウイルスの感染拡大への対応から中止となった。さらにその後、予定を変更して国立科学博物館での資料見学と情報収集を検討したが、東京圏における新型コロナウイルスの感染拡大が深刻化する状況を鑑みて、そちらも断念することとした。以上のように、交付決定時には予測することができなかった事情により分担金を執行することができなかった。科博における資料見学と情報収集についてはコロナウィルス収束後、他府県との往来が可能になってから実施予定である。

  • Research Products

    (2 results)

All Other

All Remarks (2 results)

  • [Remarks] ひとはく資料の管理と活用

    • URL

      https://www.hitohaku.jp/material/innovation.html

  • [Remarks] 植物標本デジタル化と植物標本画像からのラベル自動読み取りシステムの開発

    • URL

      https://www.hitohaku.jp/exhibition/planning/2-4_2020-takano.pdf

URL: 

Published: 2021-01-27  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi