Development of a shared text repository for data-driven historical research
Project/Area Number |
20K20138
|
Research Category |
Grant-in-Aid for Early-Career Scientists
|
Allocation Type | Multi-year Fund |
Review Section |
Basic Section 90020:Library and information science, humanistic and social informatics-related
|
Research Institution | National Museum of Japanese History |
Principal Investigator |
Hashimoto Yuta 国立歴史民俗博物館, 大学共同利用機関等の部局等, 准教授 (10802712)
|
Project Period (FY) |
2020-04-01 – 2023-03-31
|
Project Status |
Completed (Fiscal Year 2022)
|
Budget Amount *help |
¥2,600,000 (Direct Cost: ¥2,000,000、Indirect Cost: ¥600,000)
Fiscal Year 2022: ¥780,000 (Direct Cost: ¥600,000、Indirect Cost: ¥180,000)
Fiscal Year 2021: ¥650,000 (Direct Cost: ¥500,000、Indirect Cost: ¥150,000)
Fiscal Year 2020: ¥1,170,000 (Direct Cost: ¥900,000、Indirect Cost: ¥270,000)
|
Keywords | データ構造化 / データ駆動型研究 / マークアップ / エンティティリンキング / クラウドソーシング / 歴史資料 / データ駆動研究 / テキストアノテーション / ユーザー参加 / テキストレポジトリ / テキスト構造化 |
Outline of Research at the Start |
本研究の目的は、歴史資料を対象としたデータ駆動型研究の基盤の確立である。機械処理を駆使した歴史研究の遂行には、機械可読形式で提供される大量のテキストデータの存在が不可欠であるが、わが国は歴史資料のデジタルテキスト化について諸外国に大きな遅れを取っている。そこで本研究では、①文献資料に特化した軽量マークアップ言語の開発、②そのTEIとの互換性確立、③歴史資料テキストのユーザー参加型レポジトリ開設などを通じて、日本語の歴史文献を対象としたデータ駆動型研究に取り組むための環境を整備する。
|
Outline of Final Research Achievements |
The objective of this study was to establish a foundation for data-driven research on Jppanese historical documents through the construction of a shared repository for Japanese historical text. Initially, the plan was to focus on the development of a markup language for text structuring. However, the approach was shifted to two methods of structuring: 1) standoff markup and 2) entity linking. Based on these methods, efforts were made to construct a platform for structuring historical text. As a result, the achievements include the publication of "Markup Together [Ansei Edo Earthquake]" (https://markup.honkoku.org/) and its improved version, "Annotate Together" (https://ansei2.vercel.app/), which allow collaborative markup and annotation of historical materials.
|
Academic Significance and Societal Importance of the Research Achievements |
本研究は,わが国に大量に保存されている歴史資料を構造データ化し,データ駆動型研究の素材として提供するための基礎を構築する研究である.「みんなでマークアップ」および「みんなで注釈」では,実験的に1855年の安政江戸地震の記録史料を対象に構造化を実施しているが,災害被害を地図上に可視化し,計量的に処理することが可能になった.このシステムを他の史料群に適用することで,データサイエンス的手法を駆使した新しいアプローチの歴史研究が可能になることが期待される.
|
Report
(4 results)
Research Products
(3 results)