研究課題/領域番号 |
19K06832
|
研究機関 | 兵庫県立人と自然の博物館 |
研究代表者 |
高野 温子 兵庫県立人と自然の博物館, その他部局等, 研究員(移行) (20344385)
|
研究分担者 |
三橋 弘宗 兵庫県立大学, 自然・環境科学研究所, 講師 (50311486)
藤本 悠 芸術文化観光専門職大学, 芸術文化・観光学部, 准教授 (50609534)
|
研究期間 (年度) |
2019-04-01 – 2023-03-31
|
キーワード | OCR / AI / テキスト抽出 / データベース |
研究実績の概要 |
2021年度は、前年度から引き続いてラベルデータのOCR抽出テキストのタグ付け技術の開発に取り組むと共に、開発中の標本画像DBシステムの利便性を高めるため、他博物館の植物標本管理者に現状用いている標本DBのこれまでの入力件数、DBの種類、データ入力項目等について、メール等でヒアリングを行った。都道府県や政令都市立の中規模博物館では、どこもまとまった数の標本データを入力しており、一部はサイエンスミュージアムネットで公開されている。データの入力規則は、博物館や標本庫により採集日、地名や採集者番号の入力方法が大きくばらつくことが分かった。採集日は表記方法の違いであることが多かったが、地名に関しては都道府県、市区町村、字以下をそれぞれ別のセルにいれるか、一つのセルに全て入力するのか、採集者と採集者番号は同じセルに入力するか、別のセルを用意するのか。といった違いがあった。日本国内の植物標本のデジタル画像化促進のために、標本画像からOCRでテキストを自動抽出する、(OCR抽出したテキストデータは一つの文章の塊としてアウトプットされるため)それらを単語に分割する。という要素技術の開発は有益だが、それらをある定型のDBに落とし込んでDBの普及を図るのが良いか、それともそれぞれの要素技術を各館DBに取り込みやすい形で提供するのが良いかは、今年度引き続き検討する予定である。 さらに2021年度は植物標本画像を撮影するインセンティブ創出のため、島根大学 白井 匡人氏、秋廣高志氏らと共同で、標本画像を用いた分類群のAI自動判別に取り組んだ。その結果、1分類群につき最低50枚の良好な標本画像(=破損や虫食いが少なく、正しく同定されている標本)があれば、90%以上の確率で分類群の判別が可能なシステムを構築することができた。本研究ではこれまでに撮影した植物標本17万点余りの画像を提供した。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
標本画像からOCRテキスト抽出、抽出テキストを利用したDB入力は既に代表者所属先のDBで実現している。当初は同等の機能を有したフリーのDB開発と普及を計画していたが、今年度の各館ヒアリングにより、フリーDBの配布と、通常の資料DBにないOCRテキスト抽出システムやテキストの単語分割方法等の要素技術の普及のどちらが有益化を判断したい。
|
今後の研究の推進方策 |
これまでに開発したパッケージDBの普及がよいか、要素技術の普及が良いのか、他館への更なるヒアリングを実施するとともに、標本画像を得るインセンティブとなるよう、これまでの研究成果をまとめた論文執筆や学術シンポジウム等の開催により普及に努める。
|
次年度使用額が生じた理由 |
他博物館へのヒアリング訪問と対応への謝金支払いを見込んでいたが、コロナの感染拡大により全てオンライン会議システムを利用したヒアリング・打ち合わせで終わったこと、同様にアルバイト雇用日数が減ったことにより使用額が生じた。今年度はリアルで他館訪問、打ち合わせを実施し、特に資料DB の利用状況と標本画像化の実現性についてヒアリングを行いたい。併せて学術シンポジウム開催にかかる広報・アルバイト雇用費・資料作成費等に使用する予定である。
|