| Project/Area Number |
24H00011
|
| Research Category |
Grant-in-Aid for Scientific Research (S)
|
| Allocation Type | Single-year Grants |
| Review Section |
Broad Section A
|
| Research Institution | The University of Tokyo |
Principal Investigator |
山田 太造 東京大学, 史料編纂所, 准教授 (70413937)
|
| Co-Investigator(Kenkyū-buntansha) |
井上 聡 東京大学, 史料編纂所, 准教授 (20302656)
本郷 恵子 東京大学, 史料編纂所, 教授 (00195637)
末柄 豊 東京大学, 史料編纂所, 教授 (70251478)
箱石 大 東京大学, 史料編纂所, 教授 (60251477)
杉森 玲子 東京大学, 史料編纂所, 教授 (30262140)
林 晃弘 東京大学, 史料編纂所, 准教授 (10719272)
新井 重行 東京大学, 史料編纂所, 准教授 (60396934)
中村 覚 東京大学, 史料編纂所, 助教 (80802743)
関野 樹 国際日本文化研究センター, 総合情報発信室, 教授 (70353448)
木村 直樹 長崎大学, 多文化社会学部, 教授 (40323662)
馬場 基 独立行政法人国立文化財機構奈良文化財研究所, 埋蔵文化財センター, センター長 (70332195)
原 正一郎 京都大学, 東南アジア地域研究研究所, 名誉教授 (50218616)
後藤 真 国立歴史民俗博物館, 大学共同利用機関等の部局等, 准教授 (90507138)
大向 一輝 東京大学, 大学院人文社会系研究科(文学部), 准教授 (30413925)
永井 信 国立研究開発法人海洋研究開発機構, 地球環境部門(地球表層システム研究センター), 主任研究員 (70452167)
|
| Project Period (FY) |
2024-04-01 – 2029-03-31
|
| Project Status |
Granted (Fiscal Year 2025)
|
| Budget Amount *help |
¥202,150,000 (Direct Cost: ¥155,500,000、Indirect Cost: ¥46,650,000)
Fiscal Year 2025: ¥41,210,000 (Direct Cost: ¥31,700,000、Indirect Cost: ¥9,510,000)
Fiscal Year 2024: ¥31,330,000 (Direct Cost: ¥24,100,000、Indirect Cost: ¥7,230,000)
|
| Keywords | 日本史 / 史料 / データインフラストラクチャ / データ駆動型 / 異分野融合 |
| Outline of Research at the Start |
史料を蓄積・管理・共有することで,政治・経済だけでなく,災害・気候・土地利用など多様な分野に関わる過去のイベントを探るため,1)日本の各地域に伝来する史料について付随データとともに画像データを断続的に蓄積していく史料データセンシング手法の確立,2)史料に対する情報抽出・分類・関連検出などを実現するデータ駆動型データ分析基盤の構築,3)異分野間で知見・知識を刺激し,新たなる知見・知識を得るなど,融合的に研究を進展させていく研究環境を形成し,過去から現在を,あらゆる分野をシームレスにつなぐデータインフラストラクチャとして成長させ,日本列島記憶継承モデルの確立を目指す.
|
| Outline of Annual Research Achievements |
日本列島に起こったイベントを解明していく上で史料は重要な資源である.史料に係るデータを蓄積・管理・共有し,過去から現在を,多々の分野をシームレスにつなぐデータインフラストラクチャとして成長させ,日本列島記憶継承モデルの確立を目指している.この実現のため,以下について取り組んだ. (1) 史料データセンシング手法の確立:Hi-CAT Plus(史料編纂所データベース検索サービスの1つ)から立花家史料館所蔵・柳川古文書館寄託「立花家史料館所蔵史料」および都城島津邸所蔵「都城島津家文書」の史料画像データ公開を実現した. (2)データ駆動型データ分析基盤の構築:2000万点を超える史料画像に対して、本文作成・情報抽出・イベント検出を実施する.16世紀の公家である山科言継による日記「言継卿記」(刊本, 国書刊行会)全4巻を対象に,AI-OCRを実施した.本文に対するレイアウト認識のF値は0.988,テキスト認識における編集距離は0.0933だった.また地名抽出におけるF値は0.84だった. (3)異分野融合研究環境の形成:異分野融合研究におけるデータ環境の整備を進めた.具体的には奈良文化財研究所における遺跡発掘と災害痕跡に関するデータ関連,さらに管理と分析手法について議論を行い,(1)へのフィードバックと研究データ管理について検討を行った. 2025年2月21日,キックオフフォーラム「日本史研究に関するデータフロー確立に向けて」を実施し,計画の全体像・計画,取組内容について報告し,日本史研究に関するデータフロー確立について議論した.2024年9月18日, JADH2024プレシンポジウム人文学データシンポジウム「人文学研究データに関する提供と利用のギャップ」を開催(JSPS人文学・社会科学データインフラストラクチャー強化事業との共催)し,(1)を中心とした取組を報告した.
|
| Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
日本列島記憶継承モデルの確立を目指すため,(1)-(3)の3課題を順調に実施することができた. (1)の実現のため,日本各地から史料画像データを次々と収集することができる手法を確立していくため,史料利用ネットワーク・史料画像リポジトリ・研究データ管理システムについて構築を進めた.概要で示した史料画像を公開するにあたり,史料画像の由来・生成手法・利用条件・データの公開までの過程を管理していく方法を確立し,実践した. (2)の実現のため,概要にて述べた通り,本文作成ではAI-OCR実施について計画を立て,実験的に取り組んだ.情報抽出・固有表現抽出においても,深層学習による固有表現抽出を検討し,プロトタイピングを行い,実験的に実施した.また,処理した結果について,知識表現のあり方についても検討を開始した.また,情報処理学会人文科学とコンピュータシンポジウム「じんもんこん2024」において報告した内容が,ベストポスター賞受賞するに至った. (3)においては,奈良文化財研究所にて実施している異分野融合研究関連プロジェクトをユースケースとして,実際に生成したデータを下にデータの管理・利活用について議論・検討することができた. また,フォーラムを開催することで,本研究課題における研究課題・取組ついて報告することができた.
|
| Strategy for Future Research Activity |
2024年度の成果に基づき,日本列島記憶継承モデルの確立を目指すため,引き続き以下の3課題を実施していく. (1)史料データセンシング手法の確立:日本各地から史料画像データを次々と収集することができる手法を確立していくため,以下について取り組む.(1-1)史料利用ネットワークの構築:引き続き史料所蔵者と連携し,史料画像データの利用条件について協議していく.データ取得・提供に向けた条件整備を進める.(1-2)史料画像リポジトリの構築:史料編纂所における画像リポジトリに対して,日本史史料データの網羅性を高めていく.(1-3)研究データ管理システムの構築:(3)におけるデータを管理していくための方法を検討し,手法を確立し,プロトタイピングを行う. (2)データ駆動型データ分析基盤の構築:史料編纂所がこれまで蓄積してきた史料画像を対象に,以下について取り組む.(2-1)本文作成:「言継卿記」の刊本に対するAI-OCRの性能を向上させる.これを教師データとして,原本に対するAI-OCRを実践していく.(2-2)情報抽出・固有表現抽出:深層学習による固有表現抽出を実践し,性能向上を目指す.(2-3)イベント検出:トピックモデルなど機械学習手法を用いて実施していく.また,知識表現のあり方についても議論していく. (3)異分野融合研究環境の形成:(3-1)ユースケースとしての異分野融合研究の調査:地域横断・時代横断にかかるデータ利用がありうる異分野融合として,歴史地震および環境動態解析を対象に検証していく.先行して歴史地震に係るデータやデータ間関連について検証していることから,継続してこれを進める.(3-2)データ環境の整備:(3-1)を例として,そのデータ環境の汎化を試みる.(1-3)へのフィードバックに係る要件の具象化を進めていく.
|