2022 Fiscal Year Annual Research Report
Development of a shared text repository for data-driven historical research
Project/Area Number |
20K20138
|
Research Institution | National Museum of Japanese History |
Principal Investigator |
橋本 雄太 国立歴史民俗博物館, 大学共同利用機関等の部局等, 准教授 (10802712)
|
Project Period (FY) |
2020-04-01 – 2023-03-31
|
Keywords | 歴史資料 / データ駆動研究 / クラウドソーシング / テキストアノテーション |
Outline of Annual Research Achievements |
本研究の目的は、日本語歴史資料テキストの共用レポジトリ(歴史資料版「青空文庫」)の構築を通じて、歴史資料を対象としたデータ駆動型研究の基盤を確立することであった。研究計画策定時から生じた大きな変化のひとつは、2021年末に国立国会図書館の全文OCR事業を通じて、前近代の古典籍を含む莫大な点数のPD資料の全文テキストが利用可能になったことである。 このため、複数データソースを集約するテキストレポジトリを構築することよりも、資料のOCRテキストを構造化し、日時情報や位置情報といった重要情報の機械的な抽出を可能にする手法の研究がより重要になった。
そこで、研究の重点をテキスト構造化の研究に変更し、多数の資料のテキストを効率的に構造化する手法の研究に集中的に取り組んだ。具体的には、クラウドソーシングにより歴史資料のテキストアノテーションとエンティティリンキングをおこなうためのWebアプリケーション「みんなで注釈」(https://ansei2.vercel.app/stages/1)を構築した。またアルバイトに依頼し、実際の資料の構造化を通じてシステムを試用してもらった。その成果として、テキストアノテーションのマニュアルを制作し、また安政江戸地震に関する10点の資料の構造化が完了した。この作業を通じて可視化された資料内容は、たとえば次のページで閲覧することができる:https://ansei2.vercel.app/entry/L000153/map 「みんなで注釈」は2023年夏を目処に一般公開する予定である。
本研究に関しては、2023年1月に開催された情報処理学会人文科学とコンピューター研究会で報告した。また、2022年12月にケンブリッジ大学にてデジタル人文学についての国際シンポジウムを開催し、テキスト構造化の問題について議論をおこなった。
|
Research Products
(3 results)