• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2020 Fiscal Year Annual Research Report

Data-Driven Reconstruction and Integrated Analysis of the Past World Using the Infrastructure for Historical Big Data

Research Project

Project/Area Number 19H01141
Research InstitutionNational Institute of Informatics

Principal Investigator

北本 朝展  国立情報学研究所, コンテンツ科学研究系, 教授 (00300707)

Co-Investigator(Kenkyū-buntansha) 橋本 雄太  国立歴史民俗博物館, 大学共同利用機関等の部局等, 助教 (10802712)
加納 靖之  東京大学, 地震研究所, 准教授 (30447940)
Project Period (FY) 2019-04-01 – 2022-03-31
Keywords歴史ビッグデータ / データ構造化 / 統合解析 / データ駆動型復元 / 研究基盤 / 機械学習 / 歴史GIS / IIIF
Outline of Annual Research Achievements

歴史ビッグデータ構造化のケーススタディとして、江戸ビッグデータの構築を重点的に進めた。まず「江戸マップβ版」、「武鑑全集」、「江戸買物案内」、「江戸観光案内」、「歴史地名マップ」などの研究データを新規に公開、または既存データを拡充した。これらの研究データの構築に当たっては、データ統合のための識別子としてGeoLODを活用した地理的識別子を付与し、さらに「江戸マップβ版」については立命館大学が公開する「日本版MapWarper」を活用して現代の位置情報とも接続した。その成果として、江戸マップβ版は29枚の地図から8719か所の地名を抽出してデータベース化が完了し、江戸の地名を対象とした識別子による統合のための基礎データを構築した。また江戸買物案内は江戸に存在した2000件以上の商店に関する情報、江戸観光案内は江戸周辺に存在した観光地に関する情報について、江戸時代のビジュアルな資料の部分画像へのリンクを保持しつつ、江戸マップβ版や歴史地名データの地名とも統合した。

次に上記の江戸ビッグデータの構造化に、我々が開発したIIIF Curation Platformを全面的に活用できたことも特筆すべき成果である。第一にIIIF Curation Viewerを、資料から部分画像を切り取り、メタデータを付与するキュレーションのタスクに活用した。第二にIIIF Curation Finderを、キュレーションされたデータをメタデータごとにまとめ直し、検索可能なデータセットとして公開するタスクに活用した。第三にIIIF Curation Viewerを、地図に重ねる独自アノテーションをマーカー表示するタスクに活用した。このようにデータ作成から公開までの一連のワークフローにIIIF Curation Platformが活用できるよう、各ソフトウェアを必要に応じて改良した。

Current Status of Research Progress
Current Status of Research Progress

2: Research has progressed on the whole more than it was originally planned.

Reason

これまでの研究はおおむね順調に進展している。特にデータの構築やツールの開発に関しては、江戸ビッグデータやIIIF Curation Platformなどを中心にきわめて順調に進んでいる。また研究成果のタイムリーな公開については、論文・学会発表などにとどまらず、より詳細な情報をCODHセミナーを通して提供している。例えばIIIF Curation Platformについては、2021年2月にCODHセミナー「IIIF Curation Platform利活用レシピ100連発」を開催し、研究者コミュニティに対してベストプラクティスを広く共有した。さらにオープンデータやオープンソースとしての公開も順調に進んでおり、すでに成果の活用が研究コミュニティではじまっている。このような研究成果の積極的な公開は、最終年度も引き続き継続する計画である。

本研究におけるもう一つの大きな課題は、研究目的に掲げた「歴史ビッグデータの構造化ワークフロー」の一般的な枠組みの確立である。特にワークフローの様々なタスクを接続する際の障害となるギャップの解消に向けた検討を進めてきた。その結果、データ構造化ワークフローは一方向のワークフローではなく双方向のワークフローと考えるべきであり、双方向のワークフローを接続する点に最大のギャップが存在することを見出した。双方向のワークフローとは、資料側からボトムアップで進む構造化ワークフローと、アプリ側のニーズによりトップダウンで進む構造化ワークフローを指す。特に資料側から進む構造化だけではアプリ側のニーズに応えきれない面があることを発見した点が大きな成果であり、今後はこの点を考慮した新たな構造化ワークフローを考案し、プロトタイプとして実現する計画である。

Strategy for Future Research Activity

最終年度の成果としては、歴史ビッグデータ構造化ワークフローのプロトタイプを構築し、実世界の現象に適用することで、その有効性を検証することを目指す。具体的には、江戸に大きな被害を引き起こした安政江戸地震をケーススタディに選び、過去の文書から時間、位置、被害状況などを構造化データとして抽出した上で、それを蓄積・統合して可視化するワークフローを研究分担者と共同して進める。こうしたデータ構造化の作業はこれまでアドホックな方法で行われてきたが、これを検証可能なデータとして蓄積する基盤を構築することで、将来的に多分野に横展開するための基礎的な知見を蓄積する。さらに歴史ビッグデータを公開する基盤として、最終年度には「edomi」を公開する予定である。このプラットフォームから、江戸に関する歴史ビッグデータの一部を、オープンデータとして広く研究コミュニティに提供する。

  • Research Products

    (17 results)

All 2021 2020 Other

All Journal Article (3 results) (of which Int'l Joint Research: 1 results,  Peer Reviewed: 1 results,  Open Access: 1 results) Presentation (9 results) (of which Invited: 4 results) Remarks (5 results)

  • [Journal Article] Kaggle くずし字認識─世界規模の人文系コンペ開催への挑戦─2020

    • Author(s)
      北本 朝展, カラーヌワット タリン, ボーバー・イリザー ミケル
    • Journal Title

      人工知能学会誌

      Volume: 35 Pages: 366-376

  • [Journal Article] AIによるくずし字認識と歴史的資料全文検索への道2020

    • Author(s)
      北本 朝展, カラーヌワット タリン
    • Journal Title

      専門図書館

      Volume: 300 Pages: 26-32

  • [Journal Article] KuroNet: Regularized Residual U-Nets for End-to-End Kuzushiji Character Recognition2020

    • Author(s)
      Lamb Alex、Clanuwat Tarin、Kitamoto Asanobu
    • Journal Title

      SN Computer Science

      Volume: 1 Pages: 1-15

    • DOI

      10.1007/s42979-020-00186-z

    • Peer Reviewed / Open Access / Int'l Joint Research
  • [Presentation] 歴史ビッグデータ:過去の記録の構造化に基づくデータ駆動型人文学研究2021

    • Author(s)
      北本 朝展
    • Organizer
      2020年度第2回フィールドサイエンス・コロキアム/第13回CODHセミナー - 歴史ビッグデータ研究の現在と未来
    • Invited
  • [Presentation] IIIFのポテンシャルを引き出すIIIF Curation Platform利活用アイデア2021

    • Author(s)
      北本 朝展
    • Organizer
      第14回CODHセミナー - IIIF Curation Platform利活用レシピ100連発
  • [Presentation] 歴史ビッグデータ研究基盤のためのデジタルツールと相互運用性2021

    • Author(s)
      北本 朝展
    • Organizer
      KU-ORCAS国際シンポジウム「デジタルヒューマニティーズ推進のための環境構築とその課題」
    • Invited
  • [Presentation] 歴史的行政区域データセットβ版をはじめとする幾何データ共有サイト「Geoshape」の構築2020

    • Author(s)
      北本 朝展, 村田 健史
    • Organizer
      日本地球惑星科学連合(JpGU)2020年大会
    • Invited
  • [Presentation] KuroNetくずし字認識と歴史ビッグデータ研究へのインパクト2020

    • Author(s)
      北本 朝展, カラーヌワット タリン
    • Organizer
      日本地球惑星科学連合(JpGU)2020年大会
    • Invited
  • [Presentation] 歴史的行政区域データセットβ版をはじめとする地名情報基盤の構築と歴史ビッグデータへの活用2020

    • Author(s)
      北本 朝展, 村田 健史
    • Organizer
      情報処理学会技術報告
  • [Presentation] Computer Vision-based Comparison of Woodblock-printed Books and its Application to Japanese Pre-modern Text, Bukan2020

    • Author(s)
      Thomas Leyh, Asanobu KITAMOTO
    • Organizer
      Tenth Conference of Japanese Association for Digital Humanities (JADH2020)
  • [Presentation] Integrating Historical Maps and Documents through Geocoding - Historical Big Data for the Japanese City of Edo2020

    • Author(s)
      Asanobu KITAMOTO, Shoko TERAO, Misato HORII, Hiroshi HORII, Chikahiko SUZUKI
    • Organizer
      Digital Humanities 2020
  • [Presentation] 地理的史料を対象とした歴史地名の構造化と統合に基づく江戸ビッグデータの構築2020

    • Author(s)
      北本 朝展, 鈴木 親彦, 寺尾 承子, 堀井 美里, 堀井 洋
    • Organizer
      人文科学とコンピュータシンポジウム じんもんこん2020論文集
  • [Remarks] 江戸マップβ版

    • URL

      http://codh.rois.ac.jp/edo-maps/

  • [Remarks] 武鑑全集

    • URL

      http://codh.rois.ac.jp/bukan/

  • [Remarks] 江戸買物案内

    • URL

      http://codh.rois.ac.jp/edo-shops/

  • [Remarks] 江戸観光案内

    • URL

      http://codh.rois.ac.jp/edo-spots/

  • [Remarks] 歴史ビッグデータ

    • URL

      http://codh.rois.ac.jp/historical-big-data/

URL: 

Published: 2021-12-27  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi