• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2019 Fiscal Year Annual Research Report

Data-Driven Reconstruction and Integrated Analysis of the Past World Using the Infrastructure for Historical Big Data

Research Project

Project/Area Number 19H01141
Research InstitutionNational Institute of Informatics

Principal Investigator

北本 朝展  国立情報学研究所, コンテンツ科学研究系, 准教授 (00300707)

Co-Investigator(Kenkyū-buntansha) 加納 靖之  東京大学, 地震研究所, 准教授 (30447940)
橋本 雄太  国立歴史民俗博物館, 大学共同利用機関等の部局等, 助教 (10802712)
Project Period (FY) 2019-04-01 – 2022-03-31
Keywords歴史ビッグデータ / データ構造化 / 統合解析 / データ駆動型復元 / 研究基盤 / 機械学習 / 歴史GIS / IIIF
Outline of Annual Research Achievements

(1) 歴史的記録のテキスト化については、機械学習によるアプローチ(KuroNet)を発展させるとともに、市民科学によるアプローチ(みんなで翻刻)と連携させることで、翻刻プラットフォーム構想を発展させた。また、KuroNetをIIIF(International Image Interoperability Framework)対応のウェブサービスとして公開し、全世界のライブラリ・ミュージアム等が公開する歴史的記録をAIくずし字認識でテキスト化可能にするとともに、KuroNet Text Editorなどのオープンソースソフトウェアを開発し、テキスト化の結果をIIIF環境で閲覧可能とした。さらに市民科学によるアプローチで構築した翻刻データを機械学習モデルと連携させる方法についても、研究分担者との定期的なミーティングで実現の見通しを得た。最後に文書空間とデータ空間をつなぐデータの半構造化については、ライフサイエンス分野におけるアノテーションの手法を参考にする検討会を開催した。
(2) データセット構築については、まず江戸切絵図をベースに江戸の都市空間に関する基礎データセットを構築するため、全28枚中22枚の江戸切絵図からランドマークとなる地名を収集して地図座標とともにデータベース化し、その成果を「江戸マップβ版」として2019年11月に公開した。次に「武鑑全集」については、コンピュータビジョンに基づく「差読」技術の基礎的なアルゴリズムを開発し、国文学研究資料館の研究者との議論を通して有望であるとの評価を得た。
(3) IIIF Curation Platformについては、IIIF Curation Viewerを地図マーカーやくずし字認識結果の表示に対応させるアノテーションビューモードを開発するなど、機能強化と新ツールのリリースを進めた。

Current Status of Research Progress
Current Status of Research Progress

2: Research has progressed on the whole more than it was originally planned.

Reason

初年度の研究は順調に進展している。
まず、歴史的記録のテキスト化については、KuroNetの研究開発を進めただけでなく、Kaggleコンペティション「くずし字認識」を開催することで、世界中から優秀なくずし字認識アルゴリズムを獲得できたことは特筆すべき成果である。
また、歴史ビッグデータの構造化ワークフローについても重要な進展があった。当初の計画では、データ構造化ワークフローの両末端に近い部分、すなわち文書に近い部分(文書のOCRやマークアップ等)とデータに近い部分(データの変換や品質管理等)の方向性は見えていたが、文書とデータを接続する中間部分が、関連研究も少なく方向性も定めにくい「ミッシングリンク」となっていた。そこで、研究分担者や外部の研究協力者などと数度のディスカッションを繰り返し、この部分で取り組むべき研究課題を具体化することができた。もしこのギャップを埋めることができれば、研究期間が終了する頃には、世界的な使用に耐えうる仕組みの構築が見えてくると考えている。
さらにデータセット構築やソフトウェア構築についても、当初の想定通りに進めることができた。まず「江戸マップβ版」については、初年度に半分以上の絵図をデータベース化することができ、今後半年以内にすべてをデータベース化できる見通しとなった。また「武鑑全集」についても基礎的なアルゴリズムが完成し、今後半年以内にサービス化し公開できる見通しとなった。さらにIIIF Curation Platformについては、すでにいくつかのツールを公開し、研究者や市民の様々な活動への活用が進みつつある。
このように、研究成果の公表や普及についても、学会における研究発表だけでなく、データセットやソフトウェアの公開なども含めてバランスよく積極的に推進できた。

Strategy for Future Research Activity

これまでの研究で、歴史ビッグデータの構造化に向けた研究の方向性を固めることができた。ただし、研究期間が終了するまでにデータ構造化ワークフローのプロトタイプを公開するには、今後の2年間で数個のツールを追加で開発する必要がある。これらを設計、実装、公開できるように着実に研究を進めていく計画である。
一方、歴史ビッグデータというコンセプトに賛同する研究者が他分野にも増えており、こうした人々との協働を通して「歴史ビッグデータ」コミュニティを拡大していくことも重要な課題である。このコミュニティには、歴史学や経済史など人文社会分野の研究者だけでなく、古気候や古地震など理工学分野の研究者も参加しており、文理の違いを越えて過去の世界を探る方法を確立するため、様々な分野の意見を取り入れていくことが重要であると考えている。
また海外でも「過去のビッグデータ」に着目する研究が注目を集めており、中でも「欧州タイムマシン研究計画(Time Machine Europe)」は、この分野の研究を欧州中心に加速させる可能性が高い。こうした研究グループとの国際的な共同研究を進めるため、海外渡航をする計画もあったが、COVID-19の影響によって難しくなった。とはいえ、オンラインでのミーティングなどを活用して、研究推進に影響が生じないように工夫する。
最後にデータセット構築については、オープンデータの公開を今後も増やす予定である。また本研究で構築したデータセットのみならず、他の研究で構築したデータセットを受け入れて公開するなど、国内外の研究のハブとして果たすべき役割についても検討する計画である。人文社会分野では、せっかく構築したデータセットがきちんと公開されず埋もれていくことも多々あり、そうしたデータへのアクセス手段を提供することは社会的意義も大きい活動である。

  • Research Products

    (20 results)

All 2020 2019 Other

All Journal Article (4 results) (of which Open Access: 3 results,  Peer Reviewed: 1 results) Presentation (10 results) (of which Int'l Joint Research: 2 results,  Invited: 5 results) Book (1 results) Remarks (5 results)

  • [Journal Article] 文字データの分析――機械学習によるくずし字認識の可能性とそのインパクト――2019

    • Author(s)
      北本 朝展, カラーヌワット タリン, 宮崎 智, 山本 和明
    • Journal Title

      電子情報通信学会誌

      Volume: 102 Pages: 563-568

    • DOI

      10.20676/00000349

    • Open Access
  • [Journal Article] 人物データの分析――江戸時代のデータブック「武鑑」の構造化と歴史ビッグデータ解析――2019

    • Author(s)
      北本 朝展
    • Journal Title

      電子情報通信学会誌

      Volume: 102 Pages: 569-571

    • DOI

      10.20676/00000350

    • Open Access
  • [Journal Article] データ駆動型人文学研究の発展とAIによるくずし字認識2019

    • Author(s)
      北本 朝展
    • Journal Title

      月刊J-LIS

      Volume: 6 Pages: 36-39

    • DOI

      10.20676/00000352

    • Open Access
  • [Journal Article] くずし字認識のためのKaggle機械学習コンペティションの経過と成果2019

    • Author(s)
      北本 朝展, カラーヌワット タリン, Alex LAMB, Mikel BOBER-IRIZAR
    • Journal Title

      人文科学とコンピュータシンポジウム じんもんこん2019論文集

      Volume: - Pages: 223-230

    • Peer Reviewed
  • [Presentation] 最善主義と完璧主義2020

    • Author(s)
      北本 朝展
    • Organizer
      第38回人文機構シンポジウム「~ コンピュータがひもとく歴史の世界 ~デジタル・ヒューマニティーズってなに?」
    • Invited
  • [Presentation] 歴史ビッグデータ:構造化ギャップを克服するワークフローの構築と過去世界の統合解析2019

    • Author(s)
      北本 朝展, 市野 美夏
    • Organizer
      日本地球惑星科学連合(JpGU)2019年大会
  • [Presentation] IIIF Curation Platform: User-Driven Image Sharing with Machine Learning-Based Image Annotation2019

    • Author(s)
      Asanobu KITAMOTO, Jun HOMMA, Tarek SAIER
    • Organizer
      2019 IIIF Conference
    • Int'l Joint Research
  • [Presentation] 自然と社会の関係を探る歴史ビッグデータ研究2019

    • Author(s)
      北本 朝展
    • Organizer
      地震研究所共同利用研究集会「歴史上の自然現象をめぐる諸分野の対話」
  • [Presentation] 日本古典籍のリバイバルを後押しするオープンサイエンスとデジタルヒューマニティーズ2019

    • Author(s)
      北本 朝展
    • Organizer
      ネットワーク連絡会 2019 Summer
    • Invited
  • [Presentation] IIIF Curation Platform: Creating and Sharing Virtual Image Collection on a Global Scale2019

    • Author(s)
      Asanobu KITAMOTO
    • Organizer
      2019 International Conference: Glocal Humanities in the Era of Hyperconnectivity
    • Int'l Joint Research / Invited
  • [Presentation] IIIF Curation Platform入門~キュレーションの作成からシステムの展開まで~2019

    • Author(s)
      北本 朝展
    • Organizer
      第5回CODHチュートリアル
    • Invited
  • [Presentation] Digital Archives and Cultural Conflict -Data, Interpretation and Value Pyramid for Responsible Scholarship-2019

    • Author(s)
      Asanobu KITAMOTO
    • Organizer
      The Digital Transformation - Implications for the Social Sciences and the Humanities
    • Invited
  • [Presentation] デジタル人文学研究とAIくずし字認識2019

    • Author(s)
      北本 朝展
    • Organizer
      日本文化とAIシンポジウム2019
  • [Presentation] Mapping the City of Edo with Pre-modern Books, Gazetteers and IIIF2019

    • Author(s)
      Asanobu KITAMOTO
    • Organizer
      Workshop on Digital Humanities in Asian & East Asian Studies
  • [Book] デジタルアーカイブ・ベーシックス2 災害記録を未来に活かす2019

    • Author(s)
      今村文彦 監修/鈴木親彦 責任編集 (編)
    • Total Pages
      29
    • Publisher
      勉誠出版
    • ISBN
      978-4-585-20282-0
  • [Remarks] 江戸マップβ版

    • URL

      http://codh.rois.ac.jp/edo-maps/

  • [Remarks] 武鑑全集

    • URL

      http://codh.rois.ac.jp/bukan/

  • [Remarks] 歴史ビッグデータ

    • URL

      http://codh.rois.ac.jp/historical-big-data/

  • [Remarks] IIIF Curation Platform

    • URL

      http://codh.rois.ac.jp/icp/

  • [Remarks] KuroNetくずし字認識サービス

    • URL

      http://codh.rois.ac.jp/kuronet/

URL: 

Published: 2021-01-27  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi