| Project/Area Number |
23H00510
|
| Research Category |
Grant-in-Aid for Scientific Research (A)
|
| Allocation Type | Single-year Grants |
| Section | 一般 |
| Review Section |
Medium-sized Section 62:Applied informatics and related fields
|
| Research Institution | National Institute of Informatics |
Principal Investigator |
北本 朝展 国立情報学研究所, コンテンツ科学研究系, 教授 (00300707)
|
| Co-Investigator(Kenkyū-buntansha) |
橋本 雄太 国立歴史民俗博物館, 大学共同利用機関等の部局等, 准教授 (10802712)
加納 靖之 東京大学, 地震研究所, 准教授 (30447940)
大邑 潤三 東京大学, 地震研究所, 助教 (40809381)
|
| Project Period (FY) |
2023-04-01 – 2026-03-31
|
| Project Status |
Granted (Fiscal Year 2025)
|
| Budget Amount *help |
¥46,150,000 (Direct Cost: ¥35,500,000、Indirect Cost: ¥10,650,000)
Fiscal Year 2025: ¥14,430,000 (Direct Cost: ¥11,100,000、Indirect Cost: ¥3,330,000)
Fiscal Year 2024: ¥16,510,000 (Direct Cost: ¥12,700,000、Indirect Cost: ¥3,810,000)
Fiscal Year 2023: ¥15,210,000 (Direct Cost: ¥11,700,000、Indirect Cost: ¥3,510,000)
|
| Keywords | 歴史ビッグデータ / データ構造化 / データ駆動型モデル / 分野横断 / 研究基盤 / 地理情報 / 歴史情報 / オープンサイエンス |
| Outline of Research at the Start |
「歴史ビッグデータ」とは、現代のビッグデータ解析技術を過去の世界に延長し、過去の世界を新たな視点から探る研究である。人工知能(AI)やシミュレーションなど最新のデータ駆動型モデルを活用するには、くずし字で書かれた史料に残された記録をどう入力すればよいだろうか? 史料とデータ駆動型モデルを結合する鍵を握るのが、文書空間と実体空間を結合する「データ構造化」ワークフローである。そこで、文書のテキスト化やマークアップなど文書空間に関する技術と、地名エンティティなど実体空間に関する技術を研究し、分野横断的研究基盤に実装することで、歴史地震学や歴史気候学などの分野で歴史ビッグデータ研究を推進する。
|
| Outline of Annual Research Achievements |
歴史ビッグデータ研究をさらに発展させるため、データ・モデル・アプリの3つの面で成果を得た。 [1] 地名識別子については、『日本歴史地名大系』の行政地名オープンデータの精度向上を進め、各種アプリでの利用を拡大することで、歴史ビッグデータの分野横断型研究基盤の一つとして有効利用できるようにした。 [2] その他の識別子として、江戸時代の藩を対象とした「藩ID」を試作し、藩の同一性判定基準や代表表記選定基準などを専門家と議論して決定した。 [3] 文書空間と実体空間を接続するデータモデル「れきろく」については、安政江戸地震の被害状況を地理的に構造化する実証実験を行った。具体的には、「みんなで注釈」でアノテーションした構造化データを、地図に可視化するワークフローを構築した。 [4] 生成AIを活用したアプリについては、IIIF Tsukushi Viewerの公開や、歴史地震の震度推定システムの開発などの成果を上げた。IIIF Tsukushi Viewerは、AIくずし字認識「RURI」を用いたテキスト化の成果に基づき、日本古典籍とのAIチャット機能を実現した。一方、歴史地震の震度推定は、歴史地震学で標準的に用いられる数百個の震度判定ルールをプロンプトに入れることで、歴史資料のテキスト記述から震度という数値情報が得られるようになった。 [5] 研究コミュニティとの連携を進めるため、Linked Pasts 10国際会議を主催し、デジタルヒストリー分野におけるLinked Dataの活用について議論した。また、IIIF Curation Platformバージョン2のオープンソース公開を進めるなど、オープンソース・オープンデータの面でも研究成果を積極的に公開した。
|
| Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
本年度の研究実施計画として想定していた項目はほぼ達成することができ、一部の項目については想定以上の成果を達成できた。
|
| Strategy for Future Research Activity |
本研究の大きな目標は「史料とデータ駆動型モデルの接続」にある。この目標を達成するために、最終年度は以下の課題に取り組む。 [1] 文書空間と実体空間を接続するデータモデル「れきろく」については、両空間における識別子の整備とGeoLODなどを用いたAPI化、さらには作業用のユーザインタフェースの構築を進めることで、実際のアプリにおける活用事例を増やす。 [2] 市区町村IDや藩IDなどの識別子を公開することで、識別子を活用したデータ構造化を複数のアプリで進める。また、他の研究プロジェクトでの活用を進める際の具体的課題についても研究を進める。 [3] 安政江戸地震などの歴史地震を対象として、AIを活用したデータ構造化に取り組むことで、より高解像度かつマルチモーダルな歴史データの構築を進める。 [4] 生成AIを活用したアプリについては、くずし字認識モデルRURIを中心にいくつかのOCRと連携することで、より多様な資料を読み込んでAIチャットが行えるようにシステムの拡張を進める。 [5] CODHセミナーを複数回開催することで、本プロジェクトの成果を公表するとともに、歴史ビッグデータに関する各種のデータやツールの使い方も研究コミュニティに広める。
|