Historical Big Data: A Multidisicplinary Research Platform for Connecting Historical Sources and Data-Driven Models

Research Project

Project/Area Number	23H00510
Research Category	Grant-in-Aid for Scientific Research (A)
Allocation Type	Single-year Grants
Section	一般
Review Section	Medium-sized Section 62:Applied informatics and related fields
Research Institution	National Institute of Informatics
Principal Investigator	北本朝展国立情報学研究所, コンテンツ科学研究系, 教授 (00300707)
Co-Investigator(Kenkyū-buntansha)	橋本雄太国立歴史民俗博物館, 大学共同利用機関等の部局等, 准教授 (10802712) 加納靖之東京大学, 地震研究所, 准教授 (30447940) 大邑潤三東京大学, 地震研究所, 助教 (40809381)
Project Period (FY)	2023-04-01 – 2026-03-31
Project Status	Granted (Fiscal Year 2025)
Budget Amount *help	¥46,150,000 (Direct Cost: ¥35,500,000、Indirect Cost: ¥10,650,000) Fiscal Year 2025: ¥14,430,000 (Direct Cost: ¥11,100,000、Indirect Cost: ¥3,330,000) Fiscal Year 2024: ¥16,510,000 (Direct Cost: ¥12,700,000、Indirect Cost: ¥3,810,000) Fiscal Year 2023: ¥15,210,000 (Direct Cost: ¥11,700,000、Indirect Cost: ¥3,510,000)
Keywords	歴史ビッグデータ / データ構造化 / データ駆動型モデル / 分野横断 / 研究基盤 / 地理情報 / 歴史情報 / オープンサイエンス
Outline of Research at the Start	「歴史ビッグデータ」とは、現代のビッグデータ解析技術を過去の世界に延長し、過去の世界を新たな視点から探る研究である。人工知能（AI）やシミュレーションなど最新のデータ駆動型モデルを活用するには、くずし字で書かれた史料に残された記録をどう入力すればよいだろうか？史料とデータ駆動型モデルを結合する鍵を握るのが、文書空間と実体空間を結合する「データ構造化」ワークフローである。そこで、文書のテキスト化やマークアップなど文書空間に関する技術と、地名エンティティなど実体空間に関する技術を研究し、分野横断的研究基盤に実装することで、歴史地震学や歴史気候学などの分野で歴史ビッグデータ研究を推進する。
Outline of Annual Research Achievements	初年度として、研究の基盤となる部分を中心に研究を進め、以下の成果を得た。 [1] 地名識別子を拡充するために、「歴史的行政区域データセット」を2県について1889年まで延長するとともに、平凡社地図出版と協働して『日本歴史地名大系』の行政地名のオープンデータ化を完了した。特に後者のオープンデータ化については反響が大きく、本プロジェクト以外でも活用が進んでいる。なお、本プロジェクトではこのオープンデータをGeoLODに登録した上で、「みんなで注釈」などでの地名識別子付与に既に活用している。 [2] AIくずし字認識「RURI」を用いたテキスト化や、「みんなで注釈」を活用したマークアップを進め、安政江戸地震関連資料や天保郷帳などを対象としたマークアップテキストを大きく増やした。 [3] 武鑑全集を対象とした200年間の経時的翻刻データを試作するとともに、基本的な作業ワークフローを確立した。また、江戸時代の基礎的な識別子となる「藩ID」の作成に着手した。一方、安政江戸地震を対象とした歴史地震のデータ構造化については、「みんなで注釈」とのAPI連携を開始し、今後の作業を加速するための準備を行った。最後に、edomiにおいても、くずし字画像生成システム「そあん」と連携し、江戸ビッグデータのためのアプリケーションをさらに増やすことができた。 [4] 研究成果の公開については、オープンデータの公開を進めるとともに、オープンソースソフトウェアの継続的な改善を進めた。また、「ヒストリーテック勉強会」を新たに立ち上げ、歴史資料の構造化に関するセミナーを11月に開催した。
Current Status of Research Progress	Current Status of Research Progress 2: Research has progressed on the whole more than it was originally planned. Reason 本年度の研究実施計画として想定していた項目はほぼ達成することができ、一部の項目については想定以上の成果を達成できた。
Strategy for Future Research Activity	本研究の大きな目標は「史料とデータ駆動型モデルの接続」にある。これを実現するための研究を2年度目からは本格化させる。特に地名識別子のさらなる充実と精度向上、データ統合への利用が中心的な課題となる。また、安政江戸地震など歴史地震のアプリを構築し、AIを活用したデータ構造化を進展させる課題にも取り組む。また、大規模言語モデル（LLM）を歴史ビッグデータのデータ構造化でどのように有効活用するかも、今後の重要な課題となる。こうした研究の成果については、論文や学会等で発表するとともに、ウェブサイトでもオープンデータ／オープンソースとして公開する。また各種のセミナーを開催し、歴史ビッグデータの研究成果の普及にも努める。

Report

(2 results)

2023 Comments on the Screening Results Annual Research Report

Research Products
(14 results)

All 2024 2023 Other

All Journal Article (3 results) (of which Peer Reviewed: 1 results) Presentation (6 results) (of which Invited: 3 results) Remarks (5 results)

[Journal Article] 地名の情報学と歴史地名データベース構想2023
- Author(s)
  北本朝展
- Journal Title
  
  月刊「地理」
  
  Volume: 68 Pages: 48-55
- Related Report
  2023 Annual Research Report
[Journal Article] そあん（soan）：古活字データセットを用いた現代日本語テキストからくずし字画像への変換と共有2023
- Author(s)
  北本朝展, 本間淳, カラーヌワットタリン
- Journal Title
  
  人文科学とコンピュータシンポジウムじんもんこん2023論文集
  
  Volume: 1 Pages: 51-58
- Related Report
  2023 Annual Research Report
- Peer Reviewed
[Journal Article] みんなで翻刻ー歴史災害資料のシチズンサイエンス2023
- Author(s)
  橋本雄太, 加納靖之
- Journal Title
  
  科学
  
  Volume: 93 Pages: 926-929
- Related Report
  2023 Annual Research Report
[Presentation] 武鑑全集：空間的・時間的な構造化データを構築する効率的なワークフローの探求と江戸長期時系列データの構築2024
- Author(s)
  北本朝展
- Organizer
  デジタライジング研究会
- Related Report
  2023 Annual Research Report
- Invited
[Presentation] 出版社との協働による『日本歴史地名大系』の一部オープンデータ化と『歴史的行政区域データセット』との統合2023
- Author(s)
  北本朝展
- Organizer
  第22回歴史ビッグデータ研究会
- Related Report
  2023 Annual Research Report
[Presentation] 歴史的行政区域データセットの拡大と歴史ビッグデータ研究への活用2023
- Author(s)
  北本朝展, 村田健史
- Organizer
  日本地球惑星科学連合(JpGU)2023年大会
- Related Report
  2023 Annual Research Report
[Presentation] GeoとNLPをつなぐ地名の情報学2023
- Author(s)
  北本朝展
- Organizer
  地理空間情報と自然言語処理勉強会
- Related Report
  2023 Annual Research Report
[Presentation] 歴史ビッグデータにおける時空間データの利活用2023
- Author(s)
  北本朝展
- Organizer
  第3回人間文化研究機構DH研究会「DHデータ基盤としてのデータセット～利用と提供から考える」
- Related Report
  2023 Annual Research Report
- Invited
[Presentation] 歴史地理データから考える人文学DXの未来像2023
- Author(s)
  北本朝展
- Organizer
  国際シンポジウム：デジタル・ヒューマニティーズと研究基盤
- Related Report
  2023 Annual Research Report
- Invited
[Remarks] 『日本歴史地名大系』地名項目データセット
- URL
  https://geoshape.ex.nii.ac.jp/nrct/
- Related Report
  2023 Annual Research Report
[Remarks] 歴史的行政区域データセットβ版
- URL
  https://geoshape.ex.nii.ac.jp/city/
- Related Report
  2023 Annual Research Report
[Remarks] 武鑑全集
- URL
  http://codh.rois.ac.jp/bukan/
- Related Report
  2023 Annual Research Report
[Remarks] edomi
- URL
  http://codh.rois.ac.jp/edomi/
- Related Report
  2023 Annual Research Report
[Remarks] みんなで注釈
- URL
  https://ansei2.vercel.app/
- Related Report
  2023 Annual Research Report

Historical Big Data: A Multidisicplinary Research Platform for Connecting Historical Sources and Data-Driven Models

Principal Investigator

北本 朝展 国立情報学研究所, コンテンツ科学研究系, 教授 (00300707)

¥46,150,000 (Direct Cost: ¥35,500,000、Indirect Cost: ¥10,650,000)

Current Status of Research Progress

Reason

Report

Research Products

[Journal Article] 地名の情報学と歴史地名データベース構想2023

Author(s)

Journal Title

Related Report

[Journal Article] そあん（soan）：古活字データセットを用いた現代日本語テキストからくずし字画像への変換と共有2023

Author(s)

Journal Title

Related Report

[Journal Article] みんなで翻刻ー歴史災害資料のシチズンサイエンス2023

Author(s)

Journal Title

Related Report

[Presentation] 武鑑全集：空間的・時間的な構造化データを構築する効率的なワークフローの探求と江戸長期時系列データの構築2024

Author(s)

Organizer

Related Report

[Presentation] 出版社との協働による『日本歴史地名大系』の一部オープンデータ化と『歴史的行政区域データセット』との統合2023

Author(s)

Organizer

Related Report

[Presentation] 歴史的行政区域データセットの拡大と歴史ビッグデータ研究への活用2023

Author(s)

Organizer

Related Report

[Presentation] GeoとNLPをつなぐ地名の情報学2023

Author(s)

Organizer

Related Report

[Presentation] 歴史ビッグデータにおける時空間データの利活用2023

Author(s)

Organizer

Related Report

[Presentation] 歴史地理データから考える人文学DXの未来像2023

Author(s)

Organizer

Related Report

[Remarks] 『日本歴史地名大系』地名項目データセット

URL

Related Report

[Remarks] 歴史的行政区域データセットβ版

URL

Related Report

[Remarks] 武鑑全集

URL

Related Report

[Remarks] edomi

URL

Related Report

[Remarks] みんなで注釈

URL

Related Report

北本朝展国立情報学研究所, コンテンツ科学研究系, 教授 (00300707)