• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to previous page

Historical Big Data: A Multidisicplinary Research Platform for Connecting Historical Sources and Data-Driven Models

Research Project

Project/Area Number 23H00510
Research Category

Grant-in-Aid for Scientific Research (A)

Allocation TypeSingle-year Grants
Section一般
Review Section Medium-sized Section 62:Applied informatics and related fields
Research InstitutionNational Institute of Informatics

Principal Investigator

北本 朝展  国立情報学研究所, コンテンツ科学研究系, 教授 (00300707)

Co-Investigator(Kenkyū-buntansha) 橋本 雄太  国立歴史民俗博物館, 大学共同利用機関等の部局等, 准教授 (10802712)
加納 靖之  東京大学, 地震研究所, 准教授 (30447940)
大邑 潤三  東京大学, 地震研究所, 助教 (40809381)
Project Period (FY) 2023-04-01 – 2026-03-31
Project Status Granted (Fiscal Year 2024)
Budget Amount *help
¥46,150,000 (Direct Cost: ¥35,500,000、Indirect Cost: ¥10,650,000)
Fiscal Year 2025: ¥14,430,000 (Direct Cost: ¥11,100,000、Indirect Cost: ¥3,330,000)
Fiscal Year 2024: ¥16,510,000 (Direct Cost: ¥12,700,000、Indirect Cost: ¥3,810,000)
Fiscal Year 2023: ¥15,210,000 (Direct Cost: ¥11,700,000、Indirect Cost: ¥3,510,000)
Keywords歴史ビッグデータ / データ構造化 / データ駆動型モデル / 分野横断 / 研究基盤 / 地理情報 / 歴史情報 / オープンサイエンス
Outline of Research at the Start

「歴史ビッグデータ」とは、現代のビッグデータ解析技術を過去の世界に延長し、過去の世界を新たな視点から探る研究である。人工知能(AI)やシミュレーションなど最新のデータ駆動型モデルを活用するには、くずし字で書かれた史料に残された記録をどう入力すればよいだろうか?
史料とデータ駆動型モデルを結合する鍵を握るのが、文書空間と実体空間を結合する「データ構造化」ワークフローである。そこで、文書のテキスト化やマークアップなど文書空間に関する技術と、地名エンティティなど実体空間に関する技術を研究し、分野横断的研究基盤に実装することで、歴史地震学や歴史気候学などの分野で歴史ビッグデータ研究を推進する。

Outline of Annual Research Achievements

初年度として、研究の基盤となる部分を中心に研究を進め、以下の成果を得た。
[1] 地名識別子を拡充するために、「歴史的行政区域データセット」を2県について1889年まで延長するとともに、平凡社地図出版と協働して『日本歴史地名大系』の行政地名のオープンデータ化を完了した。特に後者のオープンデータ化については反響が大きく、本プロジェクト以外でも活用が進んでいる。なお、本プロジェクトではこのオープンデータをGeoLODに登録した上で、「みんなで注釈」などでの地名識別子付与に既に活用している。
[2] AIくずし字認識「RURI」を用いたテキスト化や、「みんなで注釈」を活用したマークアップを進め、安政江戸地震関連資料や天保郷帳などを対象としたマークアップテキストを大きく増やした。
[3] 武鑑全集を対象とした200年間の経時的翻刻データを試作するとともに、基本的な作業ワークフローを確立した。また、江戸時代の基礎的な識別子となる「藩ID」の作成に着手した。一方、安政江戸地震を対象とした歴史地震のデータ構造化については、「みんなで注釈」とのAPI連携を開始し、今後の作業を加速するための準備を行った。最後に、edomiにおいても、くずし字画像生成システム「そあん」と連携し、江戸ビッグデータのためのアプリケーションをさらに増やすことができた。
[4] 研究成果の公開については、オープンデータの公開を進めるとともに、オープンソースソフトウェアの継続的な改善を進めた。また、「ヒストリーテック勉強会」を新たに立ち上げ、歴史資料の構造化に関するセミナーを11月に開催した。

Current Status of Research Progress
Current Status of Research Progress

2: Research has progressed on the whole more than it was originally planned.

Reason

本年度の研究実施計画として想定していた項目はほぼ達成することができ、一部の項目については想定以上の成果を達成できた。

Strategy for Future Research Activity

本研究の大きな目標は「史料とデータ駆動型モデルの接続」にある。これを実現するための研究を2年度目からは本格化させる。特に地名識別子のさらなる充実と精度向上、データ統合への利用が中心的な課題となる。また、安政江戸地震など歴史地震のアプリを構築し、AIを活用したデータ構造化を進展させる課題にも取り組む。また、大規模言語モデル(LLM)を歴史ビッグデータのデータ構造化でどのように有効活用するかも、今後の重要な課題となる。こうした研究の成果については、論文や学会等で発表するとともに、ウェブサイトでもオープンデータ/オープンソースとして公開する。また各種のセミナーを開催し、歴史ビッグデータの研究成果の普及にも努める。

Report

(2 results)
  • 2023 Comments on the Screening Results   Annual Research Report
  • Research Products

    (14 results)

All 2024 2023 Other

All Journal Article (3 results) (of which Peer Reviewed: 1 results) Presentation (6 results) (of which Invited: 3 results) Remarks (5 results)

  • [Journal Article] 地名の情報学と歴史地名データベース構想2023

    • Author(s)
      北本 朝展
    • Journal Title

      月刊「地理」

      Volume: 68 Pages: 48-55

    • Related Report
      2023 Annual Research Report
  • [Journal Article] そあん(soan):古活字データセットを用いた現代日本語テキストからくずし字画像への変換と共有2023

    • Author(s)
      北本 朝展, 本間 淳, カラーヌワット タリン
    • Journal Title

      人文科学とコンピュータシンポジウム じんもんこん2023論文集

      Volume: 1 Pages: 51-58

    • Related Report
      2023 Annual Research Report
    • Peer Reviewed
  • [Journal Article] みんなで翻刻ー歴史災害資料のシチズンサイエンス2023

    • Author(s)
      橋本雄太, 加納靖之
    • Journal Title

      科学

      Volume: 93 Pages: 926-929

    • Related Report
      2023 Annual Research Report
  • [Presentation] 武鑑全集:空間的・時間的な構造化データを構築する効率的なワークフローの探求と江戸長期時系列データの構築2024

    • Author(s)
      北本 朝展
    • Organizer
      デジタライジング研究会
    • Related Report
      2023 Annual Research Report
    • Invited
  • [Presentation] 出版社との協働による『日本歴史地名大系』の一部オープンデータ化と『歴史的行政区域データセット』との統合2023

    • Author(s)
      北本 朝展
    • Organizer
      第22回歴史ビッグデータ研究会
    • Related Report
      2023 Annual Research Report
  • [Presentation] 歴史的行政区域データセットの拡大と歴史ビッグデータ研究への活用2023

    • Author(s)
      北本 朝展, 村田 健史
    • Organizer
      日本地球惑星科学連合(JpGU)2023年大会
    • Related Report
      2023 Annual Research Report
  • [Presentation] GeoとNLPをつなぐ地名の情報学2023

    • Author(s)
      北本 朝展
    • Organizer
      地理空間情報と自然言語処理勉強会
    • Related Report
      2023 Annual Research Report
  • [Presentation] 歴史ビッグデータにおける時空間データの利活用2023

    • Author(s)
      北本 朝展
    • Organizer
      第3回人間文化研究機構DH研究会「DHデータ基盤としてのデータセット~利用と提供から考える」
    • Related Report
      2023 Annual Research Report
    • Invited
  • [Presentation] 歴史地理データから考える人文学DXの未来像2023

    • Author(s)
      北本 朝展
    • Organizer
      国際シンポジウム:デジタル・ヒューマニティーズと研究基盤
    • Related Report
      2023 Annual Research Report
    • Invited
  • [Remarks] 『日本歴史地名大系』地名項目データセット

    • URL

      https://geoshape.ex.nii.ac.jp/nrct/

    • Related Report
      2023 Annual Research Report
  • [Remarks] 歴史的行政区域データセットβ版

    • URL

      https://geoshape.ex.nii.ac.jp/city/

    • Related Report
      2023 Annual Research Report
  • [Remarks] 武鑑全集

    • URL

      http://codh.rois.ac.jp/bukan/

    • Related Report
      2023 Annual Research Report
  • [Remarks] edomi

    • URL

      http://codh.rois.ac.jp/edomi/

    • Related Report
      2023 Annual Research Report
  • [Remarks] みんなで注釈

    • URL

      https://ansei2.vercel.app/

    • Related Report
      2023 Annual Research Report

URL: 

Published: 2023-04-13   Modified: 2025-04-17  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi