研究課題/領域番号 |
19K06832
|
研究種目 |
基盤研究(C)
|
配分区分 | 基金 |
応募区分 | 一般 |
審査区分 |
小区分45030:多様性生物学および分類学関連
|
研究機関 | 兵庫県立大学 (2022) 兵庫県立人と自然の博物館 (2019-2021) |
研究代表者 |
高野 温子 兵庫県立大学, 自然・環境科学研究所, 教授 (20344385)
|
研究分担者 |
三橋 弘宗 兵庫県立大学, 自然・環境科学研究所, 講師 (50311486)
藤本 悠 芸術文化観光専門職大学, 芸術文化・観光学部, 准教授 (50609534)
|
研究期間 (年度) |
2019-04-01 – 2023-03-31
|
研究課題ステータス |
完了 (2022年度)
|
配分額 *注記 |
4,290千円 (直接経費: 3,300千円、間接経費: 990千円)
2022年度: 780千円 (直接経費: 600千円、間接経費: 180千円)
2021年度: 1,040千円 (直接経費: 800千円、間接経費: 240千円)
2020年度: 780千円 (直接経費: 600千円、間接経費: 180千円)
2019年度: 1,690千円 (直接経費: 1,300千円、間接経費: 390千円)
|
キーワード | 標本デジタル化 / OCR / NER / 自然言語処理 / 固有表現抽出 / 光学文字認識 / 標本情報自動入力 / AI / テキスト抽出 / データベース / データベース構築 / 植物標本画像化 |
研究開始時の研究の概要 |
植物標本画像からラベル部分を認識し、OCRでテキスト抽出するプログラムと、テキストの属性を判断してDBの各項目へデータ振り分けを行うプログラムの開発を行う。それら2つのプログラムをオープンソースのデジタルアーカイブ管理システム「Survey Data Collector」へ実装する。実装が完了した段階で、植物標本の高速画像撮影法と合わせて国内各地でデジタルアーカイブシステムの使用説明会を開催し、希望する自然史系博物館には無償配布し、日本国内の植物標本デジタル化と整理の促進を目指す。
|
研究成果の概要 |
標本画像からのラベルデータ自動抽出法の開発を掲げた当初の目的通り、光学文字認識(OCR)と固有表現抽出(NER)の手法を用いて、ラベルデータをOCRでテキスト抽出し、抽出テキストを採集日や採集者、植物の学名等に分割し、CSVファイル形式で出力するシステムを開発した。また本研究に先立って開発していた標本画像の撮影装置普及にも努め、東京大学、京都大学等の日本国内の各研究機関に標本画像撮影装置が導入されて、日本国内の植物標本デジタル化作業の加速化に寄与することができた。
|
研究成果の学術的意義や社会的意義 |
世界に約30億ある自然史標本のデジタル化とウェブ公開は、標本へのアクセシビリティと流動性を高め、生物多様性保全とその研究の促進に大いに貢献する。本研究により開発されたラベルデータ自動読み取りシステムは、現状は植物標本に特化したシステムではあるが、他の標本ラベル情報自動読み取りシステムも今回と同じ方法で開発可能であり、自然史標本全般の流動性を高めることに寄与しうる。2022年に改正された博物館法により所蔵資料のデジタルアーカイブ作成と公開が博物館の努力義務となった今、低コストで実現可能な資料デジタルアーカイブ作成手法を全国の博物館が求めており、本研究はその一つの答えを提供している。
|