2022 Fiscal Year Annual Research Report
Development of Online Transcription System with IIIF and TEI
Project/Area Number |
19K20626
|
Research Institution | The University of Tokyo |
Principal Investigator |
中村 覚 東京大学, 史料編纂所, 助教 (80802743)
|
Project Period (FY) |
2019-04-01 – 2023-03-31
|
Keywords | IIIF / TEI / OCR / Omeka / 人文情報学 / デジタルアーカイブ / 翻刻 / RDF |
Outline of Annual Research Achievements |
本研究の目的は、オンライン上で複数の利用者が協力して史料を翻刻可能なシステムを開発することである。特に、画像共有のための国際標準であるIIIFや、人文学資料向けの構造化ルールを定めるTEI等の国際規格に適合させることで、幅広い用途・国際的に活用可能なシステム構築を志向する。この目標を達成するために、オープンソースのデジタルコンテンツ管理システム「Omeka」及びその翻刻用のプラグインである「Scripto」を基盤とし、IIIF準拠の画像データを入力として、オンライン上で複数人が翻刻作業を行い、翻刻成果をTEI準拠形式でエクスポートできるシステムを構築した。加えて、国立国会図書館が提供するオープンソースのOCRソフトウェア「NDL OCR」や、人文学オープンデータ共同利用センターが公開するくずし字認識サービス「KuroNet」等のOCRソフトウェアを利用し、翻刻対象史料の下書きテキストを組み込む手順を実装した。
この成果として、画像と多様なテキストデータを関連付け、「源氏物語」の本文研究支援を目指すウェブサイト「デジタル源氏物語」を公開した。また、翻刻した『校異源氏物語』のテキストデータを公開する「校異源氏物語テキストDB」、くずし字OCRと編集距離を活用し、テキストデータが類似する写本・版本の画像の推薦機能を提供する「デジタル源氏物語(AI画像検索版)」の公開も行った。
これらの取り組みが評価され、2021年にデジタルアーカイブ学会から実践賞、2022年に情報処理学会から山下記念研究賞を授与された。
|
Research Products
(19 results)
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
[Presentation] Crowdsourcing as Collaborative Learning: A Participatory Annotation Project for the Photographic Materials of Shibusawa Eiichi2022
Author(s)
Hashimoto, Yuta, Kim, Boyoung, Nakamura, Satoru, Kokaze, Naoki, Inoue, Sayaka, Shigehara, Toru, Nagasaki, Kiyonori
Organizer
Digital Humanities 2022
Int'l Joint Research
-
-
-