2020 Fiscal Year Annual Research Report
Automatic classification of images using machine learning to structure archaeological big data and enhance information retrieval
Project/Area Number |
19K21643
|
Research Institution | Nara National Research Institute for Cultural Properties |
Principal Investigator |
高田 祐一 独立行政法人国立文化財機構奈良文化財研究所, 企画調整部, 研究員 (50708576)
|
Co-Investigator(Kenkyū-buntansha) |
野口 淳 独立行政法人国立文化財機構奈良文化財研究所, 埋蔵文化財センター, 客員研究員 (70308063)
|
Project Period (FY) |
2019-06-28 – 2021-03-31
|
Keywords | 考古学 / データベース / 機械学習 / 画像認識 / 画像 / 電子公開 |
Outline of Annual Research Achievements |
考古学は蓄積型の学問であり、発掘調査報告書(以下、報告書) は、重要な基礎資料である。しかし、報告書は戦前含めて膨大にあるため、過去の蓄積に適切にアクセスしにくいという課題がある。そして考古学においては、遺構・遺物そのものが研究対象であるため、画像情報(図面・写真)が重要である。本研究は、報告書に掲載された膨大な画像にアクセスするための画像認識技術の適用である。 報告書の電子公開は主にPDFファイルによって実現されている。PDFファイルは、印刷物のレイアウトを継承したまま電子化できるなどメリットが多い。人間可読性は高いが 、データ自体は構造化されていないため、機械可読性は低い。特に、印刷物をスキャンし、デジタルデータ化したPDFからの必要な画像抽出は難しかった。解決のためには機械学習による画像自動抽出プログラムと分類するための教師データが必要である。 2020年度は、2019年度のプログラムと教師データを活用し、PDFから82万件の画像を自動抽出した。その画像群からさらに石器の種別ごとの教師データ54種類を作成し機械学習にて類似度を算出した。数値が高い種別ほど類似していることを示す。この工程によって石器種別ごとに分類できたことになる。また当該画像に類似している画像を表示させる機能も開発した。おおむね類似している画像を表示させることに成功した。しかし、一部関係のない画像も混入しており、精度の向上の余地は残る。
|
Research Products
(8 results)
-
-
-
-
-
-
-
[Book] デジタル技術による文化財情報の記録と利活用3-著作権・文化財動画・GIS・三次元データ・電子公開-2021
Author(s)
高田 祐一 , 矢内 一正 , 福島 幸宏 , 呉 修喆 , 扈 素妍 , 武内 樹治 , 国武 貞克 , 芝 康次郎 , 小久保 拓也 , 味噌井 拓志 , 野口 淳 , 諫早 直人 , 大森 穂乃香 , 中村 魁 , 加藤 俊吾 , 木村 龍生 , 三好 清超 , 仲林 篤史 , 大橋 雅也 , 今井 隆博 , 菅野 智則 , 松田 直則 , 山﨑 孝盛
Total Pages
160
Publisher
奈良文化財研究所
-