2021 Fiscal Year Research-status Report
Development of a shared text repository for data-driven historical research
Project/Area Number |
20K20138
|
Research Institution | National Museum of Japanese History |
Principal Investigator |
橋本 雄太 国立歴史民俗博物館, 大学共同利用機関等の部局等, 助教 (10802712)
|
Project Period (FY) |
2020-04-01 – 2023-03-31
|
Keywords | 歴史資料 / データ駆動研究 / クラウドソーシング / ユーザー参加 |
Outline of Annual Research Achievements |
本研究の目的は、日本語歴史資料テキストの共用レポジトリ(歴史資料版「青空文庫」)の構築を通じて、歴史資料を対象としたデータ駆動型研究の基盤を確立することであった。2年目にあたる本年度は、①資料テキストのスタンドオフマークアップシステムの試験構築と、②気象災害資料集の全文テキスト化にあたった。以下、各成果について詳細を述べる。 ①について。共用テキストレポジトリを研究コミュニティに利用してもらう上では、テキストの保持だけでなく構造化をも行えるプラットフォームであることが望ましい。本研究では、レポジトリに格納する資料テキストを構造化する手段として、XML/TEIや筆者が構築したKojiといったマークアップ言語の利用を当初検討していたが、テキスト本体にマークアップを埋め込むこれらの手法よりも、マークアップのオーバーラップを許容し、テキストとマークアップを分離して保持する、スタンドオフマークアップシステムの方が様々な場面で柔軟に利用できることが分かってきた。これを踏まえて、災害資料をターゲットとして資料テキストのスタンドオフマークアップを可能にする「みんなでマークアップ」 https://markup.honkoku.org/ というシステムを試験的に構築し、試験的に資料数点をマークアップした。このマークアップシステムは、テキストレポジトリに取り込まれる予定である。 ②について。テキストレポジトリにて最初に公開する資料の候補として、有史以来の日本国内の気象災害史料を収集した『日本気象史料』の全文テキスト化をおこなった。現在、90%ほどのテキスト化が完了している。
|
Current Status of Research Progress |
Current Status of Research Progress
3: Progress in research has been slightly delayed.
Reason
スタンドオフマークアップシステムなどの周辺システムの構築に専念したため、今年度予定していたテキスト共用レポジトリの本格的開発には着手できなかった。しかしながら、今後開発を予定しているシステムは他にないため、次年度共用レポジトリの構築に集中することで、進捗は回復可能と考えている。
|
Strategy for Future Research Activity |
次年度は、初年度に実施した試作版のシステムを基盤として、本研究の目玉であるテキスト共用レポジトリの構築に本格的に取り組む。年度後半までに試験的公開に漕ぎ着けることを予定している。公開に再指定は、最初から「歴史資料の共用テキストレポジトリ」という大きな枠組みでシステムを公開するのではなく、まずは災害史料に公開対象のジャンルを絞り、スモールスタートの方法を取ってシステムを段階的に改善する予定である。
|