• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2022 Fiscal Year Annual Research Report

Development of a shared text repository for data-driven historical research

Research Project

Project/Area Number 20K20138
Research InstitutionNational Museum of Japanese History

Principal Investigator

橋本 雄太  国立歴史民俗博物館, 大学共同利用機関等の部局等, 准教授 (10802712)

Project Period (FY) 2020-04-01 – 2023-03-31
Keywords歴史資料 / データ駆動研究 / クラウドソーシング / テキストアノテーション
Outline of Annual Research Achievements

本研究の目的は、日本語歴史資料テキストの共用レポジトリ(歴史資料版「青空文庫」)の構築を通じて、歴史資料を対象としたデータ駆動型研究の基盤を確立することであった。研究計画策定時から生じた大きな変化のひとつは、2021年末に国立国会図書館の全文OCR事業を通じて、前近代の古典籍を含む莫大な点数のPD資料の全文テキストが利用可能になったことである。 このため、複数データソースを集約するテキストレポジトリを構築することよりも、資料のOCRテキストを構造化し、日時情報や位置情報といった重要情報の機械的な抽出を可能にする手法の研究がより重要になった。

そこで、研究の重点をテキスト構造化の研究に変更し、多数の資料のテキストを効率的に構造化する手法の研究に集中的に取り組んだ。具体的には、クラウドソーシングにより歴史資料のテキストアノテーションとエンティティリンキングをおこなうためのWebアプリケーション「みんなで注釈」(https://ansei2.vercel.app/stages/1)を構築した。またアルバイトに依頼し、実際の資料の構造化を通じてシステムを試用してもらった。その成果として、テキストアノテーションのマニュアルを制作し、また安政江戸地震に関する10点の資料の構造化が完了した。この作業を通じて可視化された資料内容は、たとえば次のページで閲覧することができる:https://ansei2.vercel.app/entry/L000153/map
「みんなで注釈」は2023年夏を目処に一般公開する予定である。

本研究に関しては、2023年1月に開催された情報処理学会人文科学とコンピューター研究会で報告した。また、2022年12月にケンブリッジ大学にてデジタル人文学についての国際シンポジウムを開催し、テキスト構造化の問題について議論をおこなった。

  • Research Products

    (3 results)

All 2023 2022 Other

All Presentation (1 results) Remarks (1 results) Funded Workshop (1 results)

  • [Presentation] 歴史災害資料のマークアップシステムの試作2023

    • Author(s)
      橋本雄太
    • Organizer
      第131回 人文科学とコンピュータ研究会発表会
  • [Remarks] みんなで注釈

    • URL

      https://ansei2.vercel.app/stages/1

  • [Funded Workshop] The Digital Turn in Early Modern Japanese Studies2022

URL: 

Published: 2023-12-25  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi