研究課題
本研究の目的は、オンライン上で複数の利用者が協力して史料を翻刻可能なシステムを開発することである。特に、画像共有のための国際標準であるIIIFや、人文学資料向けの構造化ルールを定めるTEI等の国際規格に適合させることで、幅広い用途・国際的に活用可能なシステム構築を志向する。この目標を達成するために、オープンソースのデジタルコンテンツ管理システム「Omeka」及びその翻刻用のプラグインである「Scripto」を基盤とし、IIIF準拠の画像データを入力として、オンライン上で複数人が翻刻作業を行い、翻刻成果をTEI準拠形式でエクスポートできるシステムを構築した。加えて、国立国会図書館が提供するオープンソースのOCRソフトウェア「NDL OCR」や、人文学オープンデータ共同利用センターが公開するくずし字認識サービス「KuroNet」等のOCRソフトウェアを利用し、翻刻対象史料の下書きテキストを組み込む手順を実装した。この成果として、画像と多様なテキストデータを関連付け、「源氏物語」の本文研究支援を目指すウェブサイト「デジタル源氏物語」を公開した。また、翻刻した『校異源氏物語』のテキストデータを公開する「校異源氏物語テキストDB」、くずし字OCRと編集距離を活用し、テキストデータが類似する写本・版本の画像の推薦機能を提供する「デジタル源氏物語(AI画像検索版)」の公開も行った。これらの取り組みが評価され、2021年にデジタルアーカイブ学会から実践賞、2022年に情報処理学会から山下記念研究賞を授与された。
すべて 2023 2022 その他
すべて 雑誌論文 (10件) (うち査読あり 6件、 オープンアクセス 5件) 学会発表 (6件) (うち国際学会 6件) 備考 (3件)
Journal of the Text Encoding Initiative
巻: 14 ページ: -
10.4000/jtei.4403
情報知識学会誌
巻: 32 ページ: 428-431
10.2964/jsik_2022_041
巻: 32 ページ: 389-392
10.2964/jsik_2022_033
From Born-Physical to Born-Virtual: Augmenting Intelligence in Digital Libraries
巻: - ページ: 241-250
10.1007/978-3-031-21756-2_20
じんもんこん2022論文集
巻: 2022 ページ: 165-170
巻: 2022 ページ: 249-256
巻: 2022 ページ: 73-78
巻: 2022 ページ: 171-178
デジタルアーカイブ学会誌
巻: 6 ページ: s147-s150
10.24506/jsda.6.s3_s147
研究報告人文科学とコンピュータ(CH)
巻: 2022-CH-130 ページ: 1-8
https://genji.dl.itc.u-tokyo.ac.jp/
https://kouigenjimonogatari.github.io/
https://genji-ai.web.app/