2022 Fiscal Year Annual Research Report
Development of Automatic Label Information Acquisition Program from Plant Specimen Images Using Machine Learning and OCR
Project/Area Number |
19K06832
|
Research Institution | University of Hyogo |
Principal Investigator |
高野 温子 兵庫県立大学, 自然・環境科学研究所, 教授 (20344385)
|
Co-Investigator(Kenkyū-buntansha) |
三橋 弘宗 兵庫県立大学, 自然・環境科学研究所, 講師 (50311486)
藤本 悠 芸術文化観光専門職大学, 芸術文化・観光学部, 准教授 (50609534)
|
Project Period (FY) |
2019-04-01 – 2023-03-31
|
Keywords | 固有表現抽出 / 自然言語処理 / 光学文字認識 / 標本情報自動入力 |
Outline of Annual Research Achievements |
22年度は分担者の藤本氏が開発したSurvey Data Collectorの使用法についての講習会を開催した他、更なる標本データ入力支援プログラムの開発のため、自然言語処理を扱えるプログラマと共に、標本画像からOCRでテキスト抽出→固有言語処理で産地や日付、採集者等、個々のデータにラベリングしDB化するプログラム開発を試みた。はじめ学名辞書や地名辞書、採集者リストとのテキストマッチングによるデータ抽出を試みたが、正答率が6割に届かなかったため、複数の自然言語処理AI+ディープラーニングで適切なテキストデータの構造化を試みた。 植物標本ラベルのOCR抽出テキストを手動でラベリングしたデータを1000件、地名や学名、日付などをランダムに抽出した水増しデータを4000件、それぞれ作成し、この2種のデータセットを学習データ、テストデータにわけ、3種の自然言語処理AI(SpaCy, Bert, Albert) に学習させてテストデータを解析させたところ、Bertが最も成績がよく正答率83%になった。続いてSpaCyが80%前後の正答率を示した。将来他の博物館に配布することを想定すると、Bertはかなり重いプログラムで動作させるのにグラフィックボードが必要になことから、汎用性を考えて以降のプログラム開発はSpaCyを採用することにし、標本画像を複数アップロードすると、OCRと固有表現抽出を行って標本データをcsv形式で出力できるプログラムを作成した。開発したプログラムのデモはURL(https://youtu.be/2jt_GMUqrWQ)で閲覧可能である。
|