研究実績の概要 |
22年度は分担者の藤本氏が開発したSurvey Data Collectorの使用法についての講習会を開催した他、更なる標本データ入力支援プログラムの開発のため、自然言語処理を扱えるプログラマと共に、標本画像からOCRでテキスト抽出→固有言語処理で産地や日付、採集者等、個々のデータにラベリングしDB化するプログラム開発を試みた。はじめ学名辞書や地名辞書、採集者リストとのテキストマッチングによるデータ抽出を試みたが、正答率が6割に届かなかったため、複数の自然言語処理AI+ディープラーニングで適切なテキストデータの構造化を試みた。 植物標本ラベルのOCR抽出テキストを手動でラベリングしたデータを1000件、地名や学名、日付などをランダムに抽出した水増しデータを4000件、それぞれ作成し、この2種のデータセットを学習データ、テストデータにわけ、3種の自然言語処理AI(SpaCy, Bert, Albert) に学習させてテストデータを解析させたところ、Bertが最も成績がよく正答率83%になった。続いてSpaCyが80%前後の正答率を示した。将来他の博物館に配布することを想定すると、Bertはかなり重いプログラムで動作させるのにグラフィックボードが必要になことから、汎用性を考えて以降のプログラム開発はSpaCyを採用することにし、標本画像を複数アップロードすると、OCRと固有表現抽出を行って標本データをcsv形式で出力できるプログラムを作成した。開発したプログラムのデモはURL(https://youtu.be/2jt_GMUqrWQ)で閲覧可能である。
|