歴史ビッグデータ：史料とデータ駆動型モデルを結合する分野横断型研究基盤の構築

研究課題

研究課題/領域番号	23H00510
研究種目	基盤研究(A)
配分区分	補助金
応募区分	一般
審査区分	中区分62:応用情報学およびその関連分野
研究機関	国立情報学研究所
研究代表者	北本朝展国立情報学研究所, コンテンツ科学研究系, 教授 (00300707)
研究分担者	橋本雄太国立歴史民俗博物館, 大学共同利用機関等の部局等, 准教授 (10802712) 加納靖之東京大学, 地震研究所, 准教授 (30447940) 大邑潤三東京大学, 地震研究所, 助教 (40809381)
研究期間 (年度)	2023-04-01 – 2026-03-31
研究課題ステータス	交付 (2025年度)
配分額 *注記	46,150千円 (直接経費: 35,500千円、間接経費: 10,650千円) 2025年度: 14,430千円 (直接経費: 11,100千円、間接経費: 3,330千円) 2024年度: 16,510千円 (直接経費: 12,700千円、間接経費: 3,810千円) 2023年度: 15,210千円 (直接経費: 11,700千円、間接経費: 3,510千円)
キーワード	歴史ビッグデータ / データ構造化 / データ駆動型モデル / 分野横断 / 研究基盤 / 地理情報 / 歴史情報 / オープンサイエンス
研究開始時の研究の概要	「歴史ビッグデータ」とは、現代のビッグデータ解析技術を過去の世界に延長し、過去の世界を新たな視点から探る研究である。人工知能（AI）やシミュレーションなど最新のデータ駆動型モデルを活用するには、くずし字で書かれた史料に残された記録をどう入力すればよいだろうか？史料とデータ駆動型モデルを結合する鍵を握るのが、文書空間と実体空間を結合する「データ構造化」ワークフローである。そこで、文書のテキスト化やマークアップなど文書空間に関する技術と、地名エンティティなど実体空間に関する技術を研究し、分野横断的研究基盤に実装することで、歴史地震学や歴史気候学などの分野で歴史ビッグデータ研究を推進する。
研究実績の概要	初年度として、研究の基盤となる部分を中心に研究を進め、以下の成果を得た。 [1] 地名識別子を拡充するために、「歴史的行政区域データセット」を2県について1889年まで延長するとともに、平凡社地図出版と協働して『日本歴史地名大系』の行政地名のオープンデータ化を完了した。特に後者のオープンデータ化については反響が大きく、本プロジェクト以外でも活用が進んでいる。なお、本プロジェクトではこのオープンデータをGeoLODに登録した上で、「みんなで注釈」などでの地名識別子付与に既に活用している。 [2] AIくずし字認識「RURI」を用いたテキスト化や、「みんなで注釈」を活用したマークアップを進め、安政江戸地震関連資料や天保郷帳などを対象としたマークアップテキストを大きく増やした。 [3] 武鑑全集を対象とした200年間の経時的翻刻データを試作するとともに、基本的な作業ワークフローを確立した。また、江戸時代の基礎的な識別子となる「藩ID」の作成に着手した。一方、安政江戸地震を対象とした歴史地震のデータ構造化については、「みんなで注釈」とのAPI連携を開始し、今後の作業を加速するための準備を行った。最後に、edomiにおいても、くずし字画像生成システム「そあん」と連携し、江戸ビッグデータのためのアプリケーションをさらに増やすことができた。 [4] 研究成果の公開については、オープンデータの公開を進めるとともに、オープンソースソフトウェアの継続的な改善を進めた。また、「ヒストリーテック勉強会」を新たに立ち上げ、歴史資料の構造化に関するセミナーを11月に開催した。
現在までの達成度 (区分)	現在までの達成度 (区分) 2: おおむね順調に進展している理由本年度の研究実施計画として想定していた項目はほぼ達成することができ、一部の項目については想定以上の成果を達成できた。
今後の研究の推進方策	本研究の大きな目標は「史料とデータ駆動型モデルの接続」にある。これを実現するための研究を2年度目からは本格化させる。特に地名識別子のさらなる充実と精度向上、データ統合への利用が中心的な課題となる。また、安政江戸地震など歴史地震のアプリを構築し、AIを活用したデータ構造化を進展させる課題にも取り組む。また、大規模言語モデル（LLM）を歴史ビッグデータのデータ構造化でどのように有効活用するかも、今後の重要な課題となる。こうした研究の成果については、論文や学会等で発表するとともに、ウェブサイトでもオープンデータ／オープンソースとして公開する。また各種のセミナーを開催し、歴史ビッグデータの研究成果の普及にも努める。

報告書

(2件)

2023 審査結果の所見実績報告書

研究成果
(14件)

すべて 2024 2023 その他

すべて雑誌論文 (3件) (うち査読あり 1件) 学会発表 (6件) (うち招待講演 3件) 備考 (5件)

[雑誌論文] 地名の情報学と歴史地名データベース構想2023
- 著者名/発表者名
  北本朝展
- 雑誌名
  
  月刊「地理」
  
  巻: 68 ページ: 48-55
- 関連する報告書
  2023 実績報告書
[雑誌論文] そあん（soan）：古活字データセットを用いた現代日本語テキストからくずし字画像への変換と共有2023
- 著者名/発表者名
  北本朝展, 本間淳, カラーヌワットタリン
- 雑誌名
  
  人文科学とコンピュータシンポジウムじんもんこん2023論文集
  
  巻: 1 ページ: 51-58
- 関連する報告書
  2023 実績報告書
- 査読あり
[雑誌論文] みんなで翻刻ー歴史災害資料のシチズンサイエンス2023
- 著者名/発表者名
  橋本雄太, 加納靖之
- 雑誌名
  
  科学
  
  巻: 93 ページ: 926-929
- 関連する報告書
  2023 実績報告書
[学会発表] 武鑑全集：空間的・時間的な構造化データを構築する効率的なワークフローの探求と江戸長期時系列データの構築2024
- 著者名/発表者名
  北本朝展
- 学会等名
  デジタライジング研究会
- 関連する報告書
  2023 実績報告書
- 招待講演
[学会発表] 出版社との協働による『日本歴史地名大系』の一部オープンデータ化と『歴史的行政区域データセット』との統合2023
- 著者名/発表者名
  北本朝展
- 学会等名
  第22回歴史ビッグデータ研究会
- 関連する報告書
  2023 実績報告書
[学会発表] 歴史的行政区域データセットの拡大と歴史ビッグデータ研究への活用2023
- 著者名/発表者名
  北本朝展, 村田健史
- 学会等名
  日本地球惑星科学連合(JpGU)2023年大会
- 関連する報告書
  2023 実績報告書
[学会発表] GeoとNLPをつなぐ地名の情報学2023
- 著者名/発表者名
  北本朝展
- 学会等名
  地理空間情報と自然言語処理勉強会
- 関連する報告書
  2023 実績報告書
[学会発表] 歴史ビッグデータにおける時空間データの利活用2023
- 著者名/発表者名
  北本朝展
- 学会等名
  第3回人間文化研究機構DH研究会「DHデータ基盤としてのデータセット～利用と提供から考える」
- 関連する報告書
  2023 実績報告書
- 招待講演
[学会発表] 歴史地理データから考える人文学DXの未来像2023
- 著者名/発表者名
  北本朝展
- 学会等名
  国際シンポジウム：デジタル・ヒューマニティーズと研究基盤
- 関連する報告書
  2023 実績報告書
- 招待講演
[備考] 『日本歴史地名大系』地名項目データセット
- URL
  https://geoshape.ex.nii.ac.jp/nrct/
- 関連する報告書
  2023 実績報告書
[備考] 歴史的行政区域データセットβ版
- URL
  https://geoshape.ex.nii.ac.jp/city/
- 関連する報告書
  2023 実績報告書
[備考] 武鑑全集
- URL
  http://codh.rois.ac.jp/bukan/
- 関連する報告書
  2023 実績報告書
[備考] edomi
- URL
  http://codh.rois.ac.jp/edomi/
- 関連する報告書
  2023 実績報告書
[備考] みんなで注釈
- URL
  https://ansei2.vercel.app/
- 関連する報告書
  2023 実績報告書

歴史ビッグデータ：史料とデータ駆動型モデルを結合する分野横断型研究基盤の構築

研究代表者

北本 朝展 国立情報学研究所, コンテンツ科学研究系, 教授 (00300707)

46,150千円 (直接経費: 35,500千円、間接経費: 10,650千円)

現在までの達成度 (区分)

理由

報告書

研究成果

[雑誌論文] 地名の情報学と歴史地名データベース構想2023

著者名/発表者名

雑誌名

関連する報告書

[雑誌論文] そあん（soan）：古活字データセットを用いた現代日本語テキストからくずし字画像への変換と共有2023

著者名/発表者名

雑誌名

関連する報告書

[雑誌論文] みんなで翻刻ー歴史災害資料のシチズンサイエンス2023

著者名/発表者名

雑誌名

関連する報告書

[学会発表] 武鑑全集：空間的・時間的な構造化データを構築する効率的なワークフローの探求と江戸長期時系列データの構築2024

著者名/発表者名

学会等名

関連する報告書

[学会発表] 出版社との協働による『日本歴史地名大系』の一部オープンデータ化と『歴史的行政区域データセット』との統合2023

著者名/発表者名

学会等名

関連する報告書

[学会発表] 歴史的行政区域データセットの拡大と歴史ビッグデータ研究への活用2023

著者名/発表者名

学会等名

関連する報告書

[学会発表] GeoとNLPをつなぐ地名の情報学2023

著者名/発表者名

学会等名

関連する報告書

[学会発表] 歴史ビッグデータにおける時空間データの利活用2023

著者名/発表者名

学会等名

関連する報告書

[学会発表] 歴史地理データから考える人文学DXの未来像2023

著者名/発表者名

学会等名

関連する報告書

[備考] 『日本歴史地名大系』地名項目データセット

URL

関連する報告書

[備考] 歴史的行政区域データセットβ版

URL

関連する報告書

[備考] 武鑑全集

URL

関連する報告書

[備考] edomi

URL

関連する報告書

[備考] みんなで注釈

URL

関連する報告書

北本朝展国立情報学研究所, コンテンツ科学研究系, 教授 (00300707)