2020 Fiscal Year Research-status Report
Development of Automatic Label Information Acquisition Program from Plant Specimen Images Using Machine Learning and OCR
Project/Area Number |
19K06832
|
Research Institution | The Museum of Nature and Human Activities, Hyogo |
Principal Investigator |
高野 温子 兵庫県立人と自然の博物館, その他部局等, 研究員(移行) (20344385)
|
Co-Investigator(Kenkyū-buntansha) |
三橋 弘宗 兵庫県立大学, 自然・環境科学研究所, 講師 (50311486)
藤本 悠 奈良大学, 文学部, 准教授 (50609534)
|
Project Period (FY) |
2019-04-01 – 2023-03-31
|
Keywords | OCR / データベース構築 |
Outline of Annual Research Achievements |
2020年度は、標本ラベル画像からOCRによって抽出したラベルデータのテキストのタグ付け技術の開発に取り組んだ。標本ラベルは、原則学名・和名・採集者名・地名・採集日の日付など固有名詞や数値表現の塊であることから、自然言語処理技術を持ちいて単語に分割した後、固有表現抽出技術によって各単語のタグ付けを行うことにした。平均的なITスキルの学芸員が扱える無料の標本画像管理DBソフト開発が目的のため、GitHubに公開されている自然言語処理アプリを試行した。 その結果、前段階の標本ラベル画像からのOCRテキスト抽出処理をGoogle drive のAPIを使って実行していることもあり、Google Colaboratory上で自然言語処理ライブラリSpaCyとGiNZAを用いてテキストに固有表現タグを付与するやり方が一番効率的と判断した。 またラベルにより異なる日付形式のフォーマットを自動統一するプログラム開発と、地名や人名のタグ付け精度向上(例えば松原は人名にも地名にもでてくる)を図るため、テキストの位置や前後の関係から判断する機械学習を行って精度向上を図った。 また植物標本画像の高速撮影法と標本画像からのOCRによるラベルデータ抽出方法について記した論文を、植物地理・分類研究68巻に発表した。
|
Current Status of Research Progress |
Current Status of Research Progress
3: Progress in research has been slightly delayed.
Reason
2か月におよぶ在宅勤務により、博物館LAN上のネットワークサーバー上の標本画像と、プログラム開発に使用しているワークステーションにアクセスできない状況があったため。
|
Strategy for Future Research Activity |
在宅でもプログラム開発を続けることができるネットワーク等の環境構築を行い、オンライン会議用のソフトも落手したので、今後は遅延なく研究を推進できると考えている。
|
Causes of Carryover |
コロナ禍に伴う緊急事態宣言により、予定していた旅費および人件費・謝金の支出がなくなったため。今年度は在宅勤務でも研究を遅延なく遂行できるよう、環境構築を行う。
|