研究課題/領域番号 |
19K06832
|
研究機関 | 兵庫県立人と自然の博物館 |
研究代表者 |
高野 温子 兵庫県立人と自然の博物館, その他部局等, 研究員(移行) (20344385)
|
研究分担者 |
三橋 弘宗 兵庫県立大学, 自然・環境科学研究所, 講師 (50311486)
藤本 悠 奈良大学, 文学部, 准教授 (50609534)
|
研究期間 (年度) |
2019-04-01 – 2023-03-31
|
キーワード | OCR / データベース構築 |
研究実績の概要 |
2020年度は、標本ラベル画像からOCRによって抽出したラベルデータのテキストのタグ付け技術の開発に取り組んだ。標本ラベルは、原則学名・和名・採集者名・地名・採集日の日付など固有名詞や数値表現の塊であることから、自然言語処理技術を持ちいて単語に分割した後、固有表現抽出技術によって各単語のタグ付けを行うことにした。平均的なITスキルの学芸員が扱える無料の標本画像管理DBソフト開発が目的のため、GitHubに公開されている自然言語処理アプリを試行した。 その結果、前段階の標本ラベル画像からのOCRテキスト抽出処理をGoogle drive のAPIを使って実行していることもあり、Google Colaboratory上で自然言語処理ライブラリSpaCyとGiNZAを用いてテキストに固有表現タグを付与するやり方が一番効率的と判断した。 またラベルにより異なる日付形式のフォーマットを自動統一するプログラム開発と、地名や人名のタグ付け精度向上(例えば松原は人名にも地名にもでてくる)を図るため、テキストの位置や前後の関係から判断する機械学習を行って精度向上を図った。 また植物標本画像の高速撮影法と標本画像からのOCRによるラベルデータ抽出方法について記した論文を、植物地理・分類研究68巻に発表した。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
3: やや遅れている
理由
2か月におよぶ在宅勤務により、博物館LAN上のネットワークサーバー上の標本画像と、プログラム開発に使用しているワークステーションにアクセスできない状況があったため。
|
今後の研究の推進方策 |
在宅でもプログラム開発を続けることができるネットワーク等の環境構築を行い、オンライン会議用のソフトも落手したので、今後は遅延なく研究を推進できると考えている。
|
次年度使用額が生じた理由 |
コロナ禍に伴う緊急事態宣言により、予定していた旅費および人件費・謝金の支出がなくなったため。今年度は在宅勤務でも研究を遅延なく遂行できるよう、環境構築を行う。
|