2020 年度実施状況報告書

IIIFとTEIを用いたオンライン翻刻支援システムの開発

研究課題

研究課題/領域番号	19K20626
研究機関	東京大学
研究代表者	中村覚東京大学, 史料編纂所, 助教 (80802743)
研究期間 (年度)	2019-04-01 – 2022-03-31
キーワード	IIIF / TEI / 翻刻 / Omeka / くずし字 / OCR
研究実績の概要	本研究の目的は、オンライン上で複数のユーザが共同で史料を翻刻可能なシステムを開発することである。特に、画像共有のための国際規格であるIIIFや人文学資料のための構造化ルールを定めるTEI等の国際標準規格に準拠することにより、汎用的・国際的に利用可能なシステムの構築を目指す点に特徴がある。昨年度は、主にオープンソースのデジタルコンテンツ管理システムである「Omeka」のプラグイン「Scripto」をベースとして、IIIF準拠の画像を入力データとして、オンライン上で複数人が翻刻作業を実施し、翻刻結果をTEI準拠の形式でエクスポートすることが可能なプロトタイプシステムを開発した。今年度は、プロトタイプシステムの実用化に向けたシステムの改修やドキュメントの整備、および翻刻作業の継続を行った。特にシステム上で複数人が翻刻作業を実施することにより、『源氏物語』の主要本文の校異を示した研究書である『校異源氏物語』54巻すべての翻刻テキストデータの作成が完了し、これらを『校異源氏物語』のテキストデータを公開するデータベース「校異源氏物語テキストDB」にて公開した。なお、二次利用を促進することを意図して、CC0のライセンスを付与して公開し、さらにRDFデータも合わせて提供することにより、機械可読性の向上にも努めた。また、作成した『校異源氏物語』のテキストデータの活用にも取り組んだ。『校異源氏物語』のテキストデータと『源氏物語』の諸本（「東大本」「九大本」「湖月抄」など）を頁単位で照合して閲覧できる機能を提供するサイト「デジタル源氏物語」では、54巻分すべてのデータ作成が完了し、「デジタル源氏物語 Ver.YUMENOUKIHASHI」としてリニューアル公開を行った。さらに、上記の取り組みを学会等で発表することにより、本研究課題の成果報告を実施した。
現在までの達成度 (区分)	現在までの達成度 (区分) 2: おおむね順調に進展している理由本研究課題で構築を目指す翻刻支援システムについて、基本的なシステム開発は完了し、翻刻データの作成、およびそれに伴うシステム改修を進めている。さらに、昨年度から検討を進めている機械学習技術の応用、具体的には、人文学オープンデータ共同利用センター（CODH）が提供する「くずし字OCR」を利用したテキストデータの活用フローの実用化を進めた。翻刻データの作成については、『校異源氏物語』54巻分のテキストデータの作成が完了した。さらに、これらのテキストデータの活用を意図して、『源氏物語』の諸本（「東大本」「九大本」「湖月抄」など）の頁番号の対応づけ、および青空文庫で公開されている与謝野晶子現代語訳との対応づけを進めている。前者については、「くずし字OCR」を活用し、校異源氏物語のテキストデータと各諸本のOCR結果の編集距離を算出し、各諸本に対して校異源氏物語の頁番号を半自動的に付与するシステムを開発した。機械的に付与した結果を人手で校正する機能も合わせて開発し、作業の効率化を実現した。その結果、東大本、湖月抄（国文研所蔵）について、54巻分すべての頁番号の対応づけが完了した。今後は、翻刻作業の効率化における本仕組みの活用可能性について検討していく。後者については、『校異源氏物語』のテキストデータに対して、現代語訳の対応箇所を記録可能なシステムを構築した。具体的には、Googleドキュメントに機械的に変換した『校異源氏物語』のテキストデータと、各文に対してTEIによりIDを付与した現代語訳のテキストデータを入力として、現代語訳のIDをGoogleドキュメントに挿入可能なシステムを開発した。本システムを活用することにより、54巻中9巻の対応づけが完了した。今後、このような仕組みを活用し、Omekaの翻刻プラグイン「Scripto」の改良に繋げていく。
今後の研究の推進方策	今後は、「人手によるデータ作成の継続」と「自動化による作業の効率化」の2軸で研究を進める。「人手によるデータ作成の継続」については、引き続き開発したシステムを用いて、「源氏物語」に関するデータ作成を進める。今後は、すでにIIIF対応かつ自由利用可能として公開されている源氏物語（伝嵯峨本（国会図書館所蔵）や中院文庫本（京都大学所蔵）など）へと対象を拡大する予定である。また『校異源氏物語』のテキストデータと青空文庫等で公開されている現代語訳テキストデータとの関連づけについて、2020年度には9巻の対応付けが完了しているが、2021年度には54巻分すべての完了を目指す。一方、上記で作成したデータの活用および本手法の大規模データへの適用を意図として「自動化による作業の効率化」についても取り組む。具体的には、『校異源氏物語』の翻刻テキストデータとくずし字OCRによる諸本翻刻との類似度（編集距離）を算出し、類似度の高い見開きページ（画像）を自動的に提示する仕組みを開発している。「くずし字OCR」の活用については、これまでは人手による確認作業の前処理としての利用を意図していたが、今後は、人手を介さない・大規模データへの適用も可能なフローについて検討する。なお、2021年4月末に、本仕組みを使ったプロトタイプシステム「デジタル源氏物語（AI画像検索版）」を公開している。本仕組みを活用することで、『校異源氏物語』と諸本の半自動的な照合作業を、大規模なデータに対して適用することが可能となり、それに基づく翻刻作業の効率化などにつながることが期待される。加えて、学会等での本研究課題の成果発信を行う。具体的には、Japanese Association for Digital Humanitiesの年次大会や、情報処理学会・人文科学とコンピュータ研究会、中古文学会等での発表を検討している。
次年度使用額が生じた理由	次年度使用額が生じた理由として、人件費と旅費に計画の変更が生じたことが挙げられる。人件費について、機械学習を利用した翻刻作業の一部機械化と、ボランティアベースの協力者の参画により、予定使用額を大きく下回った。前者について、具体的には人文学オープンデータ共同利用センター(CODH)が2019年3月末にアップデートを実施した「くずし字OCR」サービスを利用することで、人手による作業が、テキストデータの作成から一部OCR結果の確認作業に切り替わった。さらに旅費については、コロナウイルスの影響による学会キャンセル等により、使用予定額との差額が生じた。次年度は、これまでプロトタイピングにより開発してきた機能の実用化に向け、システム開発業者への一部機能の発注を計画している。またCODHの「くずし字OCR」に加え、様々な年代のテキストを翻刻対象にすることを意図して、有償のOCRサービス（LINE OCR、Google Cloud Vison APIなど）の適用可能性についても検討を行う。
備考	「校異源氏物語テキストDB」は、本研究課題で構築した翻刻システムを使用して作成した『校異源氏物語』の翻刻テキストデータを公開するウェブサイトである。TEI形式でのテキストデータ公開に加え、LOD形式での公開も行っている。「デジタル源氏物語」は「校異源氏物語テキストDB」の成果を活用したシステムで、テキストデータを複数の機関が公開する画像や現代語訳テキストと関連づけて公開している。

研究成果
(11件)

すべて 2021 2020 その他

すべて雑誌論文 (4件) (うち国際共著 1件、査読あり 3件、オープンアクセス 2件) 学会発表 (4件) 備考 (3件)

[雑誌論文] 持続性と利活用性を考慮したデジタルアーカイブ構築手法の提案2021
- 著者名/発表者名
  中村覚、高嶋朋子
- 雑誌名
  
  デジタルアーカイブ学会誌
  
  巻: 5 ページ: 56～60
- DOI
  10.24506/jsda.5.1_56
- 査読あり / オープンアクセス
[雑誌論文] The University of Tokyo Digital Archives Development Project: Developing an Approach for Utilizing Academic Assets across Different Organizations2020
- 著者名/発表者名
  Satoru Nakamura
- 雑誌名
  
  The National Museum of Japanese History. Japanese and Asian Historical Research In the Digital Age
  
  巻: 2021 ページ: 17～36
- 査読あり / オープンアクセス / 国際共著
[雑誌論文] TEIを用いた『渋沢栄一伝記資料』テキストデータの再構築2020
- 著者名/発表者名
  金甫榮, 中村覚, 小風尚樹, 橋本雄太, 井上さやか, 茂原暢, 永崎研宣
- 雑誌名
  
  じんもんこん2020論文集
  
  巻: 2020 ページ: 47～52
- 査読あり
[雑誌論文] 源氏物語本文研究支援システム「デジタル源氏物語」の開発におけるIIIF・TEIの活用2020
- 著者名/発表者名
  中村覚, 田村隆, 永崎研宣
- 雑誌名
  
  研究報告人文科学とコンピュータ（CH）
  
  巻: 2020-CH-124 ページ: 1～7
[学会発表] 東京大学デジタルアーカイブズ構築事業の取り組みとその利活用について2021
- 著者名/発表者名
  中村覚
- 学会等名
  2020年度KU-ORCAS国際シンポジウム：デジタルヒューマニティーズ推進のための環境構築とその課題
[学会発表] IIIF Curation Platformを用いたデジタルアーカイブの活用2021
- 著者名/発表者名
  中村覚
- 学会等名
  第14回CODHセミナー：IIIF Curation Platform利活用レシピ100連発
[学会発表] 源氏物語本文研究支援システム「デジタル源氏物語」の開発におけるIIIFとTEIの活用2021
- 著者名/発表者名
  中村覚
- 学会等名
  U-PARL [協働型アジア研究オンラインセミナー]IIIFに準拠した画像公開の方法とTEIとの連携
[学会発表] 「デジタル源氏物語」の構築と展開2020
- 著者名/発表者名
  田村隆, 中村覚, 中村美里, 永崎研宣
- 学会等名
  国文学研究資料館第6回日本語の歴史的典籍国際研究集会
[備考] デジタル源氏物語
- URL
  https://genji.dl.itc.u-tokyo.ac.jp/
[備考] 校異源氏物語テキストDB
- URL
  https://kouigenjimonogatari.github.io/
[備考] デジタル源氏物語（AI画像検索版）
- URL
  https://genji-ai.web.app/

2020 年度 実施状況報告書

IIIFとTEIを用いたオンライン翻刻支援システムの開発

研究代表者

中村 覚 東京大学, 史料編纂所, 助教 (80802743)

現在までの達成度 (区分)

理由

研究成果

[雑誌論文] 持続性と利活用性を考慮したデジタルアーカイブ構築手法の提案2021

著者名/発表者名

雑誌名

DOI

[雑誌論文] The University of Tokyo Digital Archives Development Project: Developing an Approach for Utilizing Academic Assets across Different Organizations2020

著者名/発表者名

雑誌名

[雑誌論文] TEIを用いた『渋沢栄一伝記資料』テキストデータの再構築2020

著者名/発表者名

雑誌名

[雑誌論文] 源氏物語本文研究支援システム「デジタル源氏物語」の開発におけるIIIF・TEIの活用2020

著者名/発表者名

雑誌名

[学会発表] 東京大学デジタルアーカイブズ構築事業の取り組みとその利活用について2021

著者名/発表者名

学会等名

[学会発表] IIIF Curation Platformを用いたデジタルアーカイブの活用2021

著者名/発表者名

学会等名

[学会発表] 源氏物語本文研究支援システム「デジタル源氏物語」の開発におけるIIIFとTEIの活用2021

著者名/発表者名

学会等名

[学会発表] 「デジタル源氏物語」の構築と展開2020

著者名/発表者名

学会等名

[備考] デジタル源氏物語

URL

[備考] 校異源氏物語テキストDB

URL

[備考] デジタル源氏物語（AI画像検索版）

URL

2020 年度実施状況報告書

中村覚東京大学, 史料編纂所, 助教 (80802743)