2019 Fiscal Year Research-status Report
Automatic classification of images using machine learning to structure archaeological big data and enhance information retrieval
Project/Area Number |
19K21643
|
Research Institution | Nara National Research Institute for Cultural Properties |
Principal Investigator |
高田 祐一 独立行政法人国立文化財機構奈良文化財研究所, 企画調整部, 研究員 (50708576)
|
Co-Investigator(Kenkyū-buntansha) |
野口 淳 独立行政法人国立文化財機構奈良文化財研究所, 埋蔵文化財センター, 客員研究員 (70308063)
|
Project Period (FY) |
2019-06-28 – 2021-03-31
|
Keywords | データベース / 考古学ビッグデータ / 画像認識 / 考古学 / 機械学習 / 発掘調査報告書 / 文化財 / 情報探索 |
Outline of Annual Research Achievements |
考古学は蓄積型の学問であり、発掘調査報告書(以下、報告書) は、重要な基礎資料である。しかし、報告書は戦前含めて膨大にあるため、過去の蓄積に適切にアクセスしにくいという課題がある。そして考古学においては、遺構・遺物そのものが研究対象であるため、画像情報(図面・写真)が重要である。本研究は、報告書に掲載された膨大な画像にアクセスするための画像認識技術の適用である。 報告書の電子公開は主にPDFファイルによって実現されている。PDFファイルは、印刷物のレイアウトを継承したまま電子化できるなどメリットが多い。人間可読性は高いが 、データ自体は構造化されていないため、機械可読性は低い。特に、印刷物をスキャンし、デジタルデータ化したPDFからの必要な画像抽出は難しかった。解決のためには機械学習による画像自動抽出プログラムと分類するための教師データが必要である。そこで、2019年度は「考古学ビッグデータ」から、遺物図面・遺物写真・遺構図面・遺構写真等の種類に大別する教師データを作成した。作成した教師データをもとに機械学習のソフトウェアライブラリを使用してPDFから画像を抽出した。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
2019年度下期から発生している新型コロナウイルス感染症による影響は特にない。
|
Strategy for Future Research Activity |
2019年度に自動抽出した画像を自動分類する工程に移行する。
|
Causes of Carryover |
新型コロナウイルス感染症による影響で、学会発表や研究会議の開催が困難となり、旅費が計画よりも執行が少なくなった。2020年度においても、出張等が困難になる可能性があるため、プログラム開発とデータ作成に関する作業を重点的に実施する。
|
Research Products
(3 results)