• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 課題ページに戻る

2023 年度 実績報告書

歴史ビッグデータ:史料とデータ駆動型モデルを結合する分野横断型研究基盤の構築

研究課題

研究課題/領域番号 23H00510
研究機関国立情報学研究所

研究代表者

北本 朝展  国立情報学研究所, コンテンツ科学研究系, 教授 (00300707)

研究分担者 橋本 雄太  国立歴史民俗博物館, 大学共同利用機関等の部局等, 准教授 (10802712)
加納 靖之  東京大学, 地震研究所, 准教授 (30447940)
大邑 潤三  東京大学, 地震研究所, 助教 (40809381)
研究期間 (年度) 2023-04-01 – 2026-03-31
キーワード歴史ビッグデータ / データ構造化 / データ駆動型モデル / 分野横断 / 研究基盤 / 地理情報 / 歴史情報 / オープンサイエンス
研究実績の概要

初年度として、研究の基盤となる部分を中心に研究を進め、以下の成果を得た。
[1] 地名識別子を拡充するために、「歴史的行政区域データセット」を2県について1889年まで延長するとともに、平凡社地図出版と協働して『日本歴史地名大系』の行政地名のオープンデータ化を完了した。特に後者のオープンデータ化については反響が大きく、本プロジェクト以外でも活用が進んでいる。なお、本プロジェクトではこのオープンデータをGeoLODに登録した上で、「みんなで注釈」などでの地名識別子付与に既に活用している。
[2] AIくずし字認識「RURI」を用いたテキスト化や、「みんなで注釈」を活用したマークアップを進め、安政江戸地震関連資料や天保郷帳などを対象としたマークアップテキストを大きく増やした。
[3] 武鑑全集を対象とした200年間の経時的翻刻データを試作するとともに、基本的な作業ワークフローを確立した。また、江戸時代の基礎的な識別子となる「藩ID」の作成に着手した。一方、安政江戸地震を対象とした歴史地震のデータ構造化については、「みんなで注釈」とのAPI連携を開始し、今後の作業を加速するための準備を行った。最後に、edomiにおいても、くずし字画像生成システム「そあん」と連携し、江戸ビッグデータのためのアプリケーションをさらに増やすことができた。
[4] 研究成果の公開については、オープンデータの公開を進めるとともに、オープンソースソフトウェアの継続的な改善を進めた。また、「ヒストリーテック勉強会」を新たに立ち上げ、歴史資料の構造化に関するセミナーを11月に開催した。

現在までの達成度 (区分)
現在までの達成度 (区分)

2: おおむね順調に進展している

理由

本年度の研究実施計画として想定していた項目はほぼ達成することができ、一部の項目については想定以上の成果を達成できた。

今後の研究の推進方策

本研究の大きな目標は「史料とデータ駆動型モデルの接続」にある。これを実現するための研究を2年度目からは本格化させる。特に地名識別子のさらなる充実と精度向上、データ統合への利用が中心的な課題となる。また、安政江戸地震など歴史地震のアプリを構築し、AIを活用したデータ構造化を進展させる課題にも取り組む。また、大規模言語モデル(LLM)を歴史ビッグデータのデータ構造化でどのように有効活用するかも、今後の重要な課題となる。こうした研究の成果については、論文や学会等で発表するとともに、ウェブサイトでもオープンデータ/オープンソースとして公開する。また各種のセミナーを開催し、歴史ビッグデータの研究成果の普及にも努める。

  • 研究成果

    (14件)

すべて 2024 2023 その他

すべて 雑誌論文 (3件) (うち査読あり 1件) 学会発表 (6件) (うち招待講演 3件) 備考 (5件)

  • [雑誌論文] 地名の情報学と歴史地名データベース構想2023

    • 著者名/発表者名
      北本 朝展
    • 雑誌名

      月刊「地理」

      巻: 68 ページ: 48-55

  • [雑誌論文] そあん(soan):古活字データセットを用いた現代日本語テキストからくずし字画像への変換と共有2023

    • 著者名/発表者名
      北本 朝展, 本間 淳, カラーヌワット タリン
    • 雑誌名

      人文科学とコンピュータシンポジウム じんもんこん2023論文集

      巻: 1 ページ: 51-58

    • 査読あり
  • [雑誌論文] みんなで翻刻ー歴史災害資料のシチズンサイエンス2023

    • 著者名/発表者名
      橋本雄太, 加納靖之
    • 雑誌名

      科学

      巻: 93 ページ: 926-929

  • [学会発表] 武鑑全集:空間的・時間的な構造化データを構築する効率的なワークフローの探求と江戸長期時系列データの構築2024

    • 著者名/発表者名
      北本 朝展
    • 学会等名
      デジタライジング研究会
    • 招待講演
  • [学会発表] 出版社との協働による『日本歴史地名大系』の一部オープンデータ化と『歴史的行政区域データセット』との統合2023

    • 著者名/発表者名
      北本 朝展
    • 学会等名
      第22回歴史ビッグデータ研究会
  • [学会発表] 歴史的行政区域データセットの拡大と歴史ビッグデータ研究への活用2023

    • 著者名/発表者名
      北本 朝展, 村田 健史
    • 学会等名
      日本地球惑星科学連合(JpGU)2023年大会
  • [学会発表] GeoとNLPをつなぐ地名の情報学2023

    • 著者名/発表者名
      北本 朝展
    • 学会等名
      地理空間情報と自然言語処理勉強会
  • [学会発表] 歴史ビッグデータにおける時空間データの利活用2023

    • 著者名/発表者名
      北本 朝展
    • 学会等名
      第3回人間文化研究機構DH研究会「DHデータ基盤としてのデータセット~利用と提供から考える」
    • 招待講演
  • [学会発表] 歴史地理データから考える人文学DXの未来像2023

    • 著者名/発表者名
      北本 朝展
    • 学会等名
      国際シンポジウム:デジタル・ヒューマニティーズと研究基盤
    • 招待講演
  • [備考] 『日本歴史地名大系』地名項目データセット

    • URL

      https://geoshape.ex.nii.ac.jp/nrct/

  • [備考] 歴史的行政区域データセットβ版

    • URL

      https://geoshape.ex.nii.ac.jp/city/

  • [備考] 武鑑全集

    • URL

      http://codh.rois.ac.jp/bukan/

  • [備考] edomi

    • URL

      http://codh.rois.ac.jp/edomi/

  • [備考] みんなで注釈

    • URL

      https://ansei2.vercel.app/

URL: 

公開日: 2024-12-25  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi