研究課題/領域番号 |
23H00510
|
研究種目 |
基盤研究(A)
|
配分区分 | 補助金 |
応募区分 | 一般 |
審査区分 |
中区分62:応用情報学およびその関連分野
|
研究機関 | 国立情報学研究所 |
研究代表者 |
北本 朝展 国立情報学研究所, コンテンツ科学研究系, 教授 (00300707)
|
研究分担者 |
橋本 雄太 国立歴史民俗博物館, 大学共同利用機関等の部局等, 准教授 (10802712)
加納 靖之 東京大学, 地震研究所, 准教授 (30447940)
大邑 潤三 東京大学, 地震研究所, 助教 (40809381)
|
研究期間 (年度) |
2023-04-01 – 2026-03-31
|
研究課題ステータス |
交付 (2024年度)
|
配分額 *注記 |
46,150千円 (直接経費: 35,500千円、間接経費: 10,650千円)
2024年度: 16,510千円 (直接経費: 12,700千円、間接経費: 3,810千円)
2023年度: 15,210千円 (直接経費: 11,700千円、間接経費: 3,510千円)
|
キーワード | 歴史ビッグデータ / データ構造化 / データ駆動型モデル / 分野横断 / 研究基盤 / 地理情報 / 歴史情報 / オープンサイエンス |
研究開始時の研究の概要 |
「歴史ビッグデータ」とは、現代のビッグデータ解析技術を過去の世界に延長し、過去の世界を新たな視点から探る研究である。人工知能(AI)やシミュレーションなど最新のデータ駆動型モデルを活用するには、くずし字で書かれた史料に残された記録をどう入力すればよいだろうか? 史料とデータ駆動型モデルを結合する鍵を握るのが、文書空間と実体空間を結合する「データ構造化」ワークフローである。そこで、文書のテキスト化やマークアップなど文書空間に関する技術と、地名エンティティなど実体空間に関する技術を研究し、分野横断的研究基盤に実装することで、歴史地震学や歴史気候学などの分野で歴史ビッグデータ研究を推進する。
|
研究実績の概要 |
初年度として、研究の基盤となる部分を中心に研究を進め、以下の成果を得た。 [1] 地名識別子を拡充するために、「歴史的行政区域データセット」を2県について1889年まで延長するとともに、平凡社地図出版と協働して『日本歴史地名大系』の行政地名のオープンデータ化を完了した。特に後者のオープンデータ化については反響が大きく、本プロジェクト以外でも活用が進んでいる。なお、本プロジェクトではこのオープンデータをGeoLODに登録した上で、「みんなで注釈」などでの地名識別子付与に既に活用している。 [2] AIくずし字認識「RURI」を用いたテキスト化や、「みんなで注釈」を活用したマークアップを進め、安政江戸地震関連資料や天保郷帳などを対象としたマークアップテキストを大きく増やした。 [3] 武鑑全集を対象とした200年間の経時的翻刻データを試作するとともに、基本的な作業ワークフローを確立した。また、江戸時代の基礎的な識別子となる「藩ID」の作成に着手した。一方、安政江戸地震を対象とした歴史地震のデータ構造化については、「みんなで注釈」とのAPI連携を開始し、今後の作業を加速するための準備を行った。最後に、edomiにおいても、くずし字画像生成システム「そあん」と連携し、江戸ビッグデータのためのアプリケーションをさらに増やすことができた。 [4] 研究成果の公開については、オープンデータの公開を進めるとともに、オープンソースソフトウェアの継続的な改善を進めた。また、「ヒストリーテック勉強会」を新たに立ち上げ、歴史資料の構造化に関するセミナーを11月に開催した。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
本年度の研究実施計画として想定していた項目はほぼ達成することができ、一部の項目については想定以上の成果を達成できた。
|
今後の研究の推進方策 |
本研究の大きな目標は「史料とデータ駆動型モデルの接続」にある。これを実現するための研究を2年度目からは本格化させる。特に地名識別子のさらなる充実と精度向上、データ統合への利用が中心的な課題となる。また、安政江戸地震など歴史地震のアプリを構築し、AIを活用したデータ構造化を進展させる課題にも取り組む。また、大規模言語モデル(LLM)を歴史ビッグデータのデータ構造化でどのように有効活用するかも、今後の重要な課題となる。こうした研究の成果については、論文や学会等で発表するとともに、ウェブサイトでもオープンデータ/オープンソースとして公開する。また各種のセミナーを開催し、歴史ビッグデータの研究成果の普及にも努める。
|