2020 Fiscal Year Annual Research Report
Data-Driven Reconstruction and Integrated Analysis of the Past World Using the Infrastructure for Historical Big Data
Project/Area Number |
19H01141
|
Research Institution | National Institute of Informatics |
Principal Investigator |
北本 朝展 国立情報学研究所, コンテンツ科学研究系, 教授 (00300707)
|
Co-Investigator(Kenkyū-buntansha) |
橋本 雄太 国立歴史民俗博物館, 大学共同利用機関等の部局等, 助教 (10802712)
加納 靖之 東京大学, 地震研究所, 准教授 (30447940)
|
Project Period (FY) |
2019-04-01 – 2022-03-31
|
Keywords | 歴史ビッグデータ / データ構造化 / 統合解析 / データ駆動型復元 / 研究基盤 / 機械学習 / 歴史GIS / IIIF |
Outline of Annual Research Achievements |
歴史ビッグデータ構造化のケーススタディとして、江戸ビッグデータの構築を重点的に進めた。まず「江戸マップβ版」、「武鑑全集」、「江戸買物案内」、「江戸観光案内」、「歴史地名マップ」などの研究データを新規に公開、または既存データを拡充した。これらの研究データの構築に当たっては、データ統合のための識別子としてGeoLODを活用した地理的識別子を付与し、さらに「江戸マップβ版」については立命館大学が公開する「日本版MapWarper」を活用して現代の位置情報とも接続した。その成果として、江戸マップβ版は29枚の地図から8719か所の地名を抽出してデータベース化が完了し、江戸の地名を対象とした識別子による統合のための基礎データを構築した。また江戸買物案内は江戸に存在した2000件以上の商店に関する情報、江戸観光案内は江戸周辺に存在した観光地に関する情報について、江戸時代のビジュアルな資料の部分画像へのリンクを保持しつつ、江戸マップβ版や歴史地名データの地名とも統合した。
次に上記の江戸ビッグデータの構造化に、我々が開発したIIIF Curation Platformを全面的に活用できたことも特筆すべき成果である。第一にIIIF Curation Viewerを、資料から部分画像を切り取り、メタデータを付与するキュレーションのタスクに活用した。第二にIIIF Curation Finderを、キュレーションされたデータをメタデータごとにまとめ直し、検索可能なデータセットとして公開するタスクに活用した。第三にIIIF Curation Viewerを、地図に重ねる独自アノテーションをマーカー表示するタスクに活用した。このようにデータ作成から公開までの一連のワークフローにIIIF Curation Platformが活用できるよう、各ソフトウェアを必要に応じて改良した。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
これまでの研究はおおむね順調に進展している。特にデータの構築やツールの開発に関しては、江戸ビッグデータやIIIF Curation Platformなどを中心にきわめて順調に進んでいる。また研究成果のタイムリーな公開については、論文・学会発表などにとどまらず、より詳細な情報をCODHセミナーを通して提供している。例えばIIIF Curation Platformについては、2021年2月にCODHセミナー「IIIF Curation Platform利活用レシピ100連発」を開催し、研究者コミュニティに対してベストプラクティスを広く共有した。さらにオープンデータやオープンソースとしての公開も順調に進んでおり、すでに成果の活用が研究コミュニティではじまっている。このような研究成果の積極的な公開は、最終年度も引き続き継続する計画である。
本研究におけるもう一つの大きな課題は、研究目的に掲げた「歴史ビッグデータの構造化ワークフロー」の一般的な枠組みの確立である。特にワークフローの様々なタスクを接続する際の障害となるギャップの解消に向けた検討を進めてきた。その結果、データ構造化ワークフローは一方向のワークフローではなく双方向のワークフローと考えるべきであり、双方向のワークフローを接続する点に最大のギャップが存在することを見出した。双方向のワークフローとは、資料側からボトムアップで進む構造化ワークフローと、アプリ側のニーズによりトップダウンで進む構造化ワークフローを指す。特に資料側から進む構造化だけではアプリ側のニーズに応えきれない面があることを発見した点が大きな成果であり、今後はこの点を考慮した新たな構造化ワークフローを考案し、プロトタイプとして実現する計画である。
|
Strategy for Future Research Activity |
最終年度の成果としては、歴史ビッグデータ構造化ワークフローのプロトタイプを構築し、実世界の現象に適用することで、その有効性を検証することを目指す。具体的には、江戸に大きな被害を引き起こした安政江戸地震をケーススタディに選び、過去の文書から時間、位置、被害状況などを構造化データとして抽出した上で、それを蓄積・統合して可視化するワークフローを研究分担者と共同して進める。こうしたデータ構造化の作業はこれまでアドホックな方法で行われてきたが、これを検証可能なデータとして蓄積する基盤を構築することで、将来的に多分野に横展開するための基礎的な知見を蓄積する。さらに歴史ビッグデータを公開する基盤として、最終年度には「edomi」を公開する予定である。このプラットフォームから、江戸に関する歴史ビッグデータの一部を、オープンデータとして広く研究コミュニティに提供する。
|
Research Products
(17 results)