2023 Fiscal Year Annual Research Report
Historical Big Data: A Multidisicplinary Research Platform for Connecting Historical Sources and Data-Driven Models
Project/Area Number |
23H00510
|
Research Institution | National Institute of Informatics |
Principal Investigator |
北本 朝展 国立情報学研究所, コンテンツ科学研究系, 教授 (00300707)
|
Co-Investigator(Kenkyū-buntansha) |
橋本 雄太 国立歴史民俗博物館, 大学共同利用機関等の部局等, 准教授 (10802712)
加納 靖之 東京大学, 地震研究所, 准教授 (30447940)
大邑 潤三 東京大学, 地震研究所, 助教 (40809381)
|
Project Period (FY) |
2023-04-01 – 2026-03-31
|
Keywords | 歴史ビッグデータ / データ構造化 / データ駆動型モデル / 分野横断 / 研究基盤 / 地理情報 / 歴史情報 / オープンサイエンス |
Outline of Annual Research Achievements |
初年度として、研究の基盤となる部分を中心に研究を進め、以下の成果を得た。 [1] 地名識別子を拡充するために、「歴史的行政区域データセット」を2県について1889年まで延長するとともに、平凡社地図出版と協働して『日本歴史地名大系』の行政地名のオープンデータ化を完了した。特に後者のオープンデータ化については反響が大きく、本プロジェクト以外でも活用が進んでいる。なお、本プロジェクトではこのオープンデータをGeoLODに登録した上で、「みんなで注釈」などでの地名識別子付与に既に活用している。 [2] AIくずし字認識「RURI」を用いたテキスト化や、「みんなで注釈」を活用したマークアップを進め、安政江戸地震関連資料や天保郷帳などを対象としたマークアップテキストを大きく増やした。 [3] 武鑑全集を対象とした200年間の経時的翻刻データを試作するとともに、基本的な作業ワークフローを確立した。また、江戸時代の基礎的な識別子となる「藩ID」の作成に着手した。一方、安政江戸地震を対象とした歴史地震のデータ構造化については、「みんなで注釈」とのAPI連携を開始し、今後の作業を加速するための準備を行った。最後に、edomiにおいても、くずし字画像生成システム「そあん」と連携し、江戸ビッグデータのためのアプリケーションをさらに増やすことができた。 [4] 研究成果の公開については、オープンデータの公開を進めるとともに、オープンソースソフトウェアの継続的な改善を進めた。また、「ヒストリーテック勉強会」を新たに立ち上げ、歴史資料の構造化に関するセミナーを11月に開催した。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
本年度の研究実施計画として想定していた項目はほぼ達成することができ、一部の項目については想定以上の成果を達成できた。
|
Strategy for Future Research Activity |
本研究の大きな目標は「史料とデータ駆動型モデルの接続」にある。これを実現するための研究を2年度目からは本格化させる。特に地名識別子のさらなる充実と精度向上、データ統合への利用が中心的な課題となる。また、安政江戸地震など歴史地震のアプリを構築し、AIを活用したデータ構造化を進展させる課題にも取り組む。また、大規模言語モデル(LLM)を歴史ビッグデータのデータ構造化でどのように有効活用するかも、今後の重要な課題となる。こうした研究の成果については、論文や学会等で発表するとともに、ウェブサイトでもオープンデータ/オープンソースとして公開する。また各種のセミナーを開催し、歴史ビッグデータの研究成果の普及にも努める。
|
Research Products
(14 results)