2021 年度実施状況報告書

IIIFとTEIを用いたオンライン翻刻支援システムの開発

研究課題

研究課題/領域番号	19K20626
研究機関	東京大学
研究代表者	中村覚東京大学, 史料編纂所, 助教 (80802743)
研究期間 (年度)	2019-04-01 – 2023-03-31
キーワード	TEI / くずし字OCR / 編集距離 / 源氏物語 / VSCode / Omeka
研究実績の概要	2020年度より、人間と機械の両者によるテキストデータの作成支援に取り組んでいる。人間によるテキストデータ作成支援に関する研究の成果として、OSSのソースコードエディタであるVSCodeの拡張機能として翻刻支援システムの開発と公開を行なった。具体的には、TEIによるルビ（ruby）や校異情報（app）、および割注などのマークアップを支援する機能をVSCodeの拡張機能として開発した。またXMLファイルの編集に合わせて、表示結果例をリアルタイムにプレビュー可能な機能も提供する。これらの機能を用いることにより、TEIを用いたテキストデータの作成を支援する。機械によるテキストデータ作成支援に関する研究の成果として、「デジタル源氏物語（AI画像検索版）」というウェブサイトを構築・公開した。本ウェブサイトの特徴として、くずし字OCRと編集距離を利用して、テキストデータが類似する写本・版本の画像を自動的に推薦する機能を提供する。本ウェブサイトを通じて、一部認識誤りを含むOCRテキストデータの利用方法の一例を示すことができた。また、本ウェブサイトの構築に合わせて、CODH（人文学オープンデータ共同利用センター）が公開する「くずし字データセット」を用いて独自のくずし字OCRモデルを開発した。深層学習を用いた文字検出と文字認識、および読み順の自動推定を行う3つのステージから構成される。今後、本モデルの公開を行い、第三者が利用可能な環境を整備する。
現在までの達成度 (区分)	現在までの達成度 (区分) 2: おおむね順調に進展している理由研究開始時においては、オープンソースのデジタルコンテンツ管理システムである「Omeka」のプラグイン開発のみを計画していた。しかし、2021年度からVSCodeのプラグイン開発に着手した。VSCodeはテキストエディタのデファクトスタンダードとして広く利用されており、さまざまなプラグイン（Visual Studio Live Share：リアルタイムの共同開発、など）が既に開発されている。また、TEIによるマークアップを支援するプラグイン（例：Scholary XMLやtei-publisher-vscodeなど）も複数開発されている。これらのプラグインと今回開発するプラグインを組み合わせて利用することにより、TEI/XMLを用いた翻刻テキストの作成を効率的に進めることが可能となる。特に、Omekaのプラグイン「Scripto」を用いた場合と比較して、書誌情報（teiHeader）や校異情報（app）など、より詳細な翻刻テキストデータの作成を支援することができる。一方、Scriptoを使用した場合に比べて、簡便さは失われる（TEI/XMLの知識が一部求められる）ため、目的や環境に応じて、OmekaとVSCodeを使い分けて使用することができる。このように、当初予定していたツール以外の開発にも着手することができ、研究課題が順調に進展している。
今後の研究の推進方策	今後は以下の課題に取り組む。 (1)VSCodeの拡張機能の改良、(2)Omeka Sのプラグイン「Scripto」を含む、翻刻環境の導入と使用方法に関するドキュメンテーション、(3)くずし字認識モデルの公開、(4)開発したツールの実適用 (1)について、開発したVSCodeの拡張機能は既に公開済みであり、第三者が利用できるようになっている。そのため、第三者の利用によるフィードバック等に基づき、機能改良を行う。(2)については、これまで開発したツール群を第三者が利用できるようにするための環境構築である。特に「Scripto」の使用方法に関するドキュメントを作成し、インターネット上で公開する。(3)については、今年度作成したくずし字認識モデルを第三者が利用できるようにするための環境構築である。2と同様、開発したモデルの使用方法に関するドキュメンテーションも含めて用意し、インターネット上で公開する。(4)については、1および2で述べたツールを実際の翻刻プロジェクトに適用し、有用性を評価することが目的である。これまでの『校異源氏物語』のテキストデータ作成への適用に加えて、校異情報のマークアップを含む、より詳細な翻刻テキストデータの作成プロジェクトへの適用を予定している。
次年度使用額が生じた理由	次年度使用額が生じた理由として、人件費と旅費に計画の変更が生じたことが挙げられる。人件費について、機械学習を利用した翻刻作業の一部機械化と、ボランティアベースの協力者の参画により、予定使用額を大きく下回った。前者について、具体的には人文学オープンデータ共同利用センター(CODH)が提供する「くずし字OCR」サービスおよび独自に開発したくずし字OCRモデルを利用することで、人手による作業が、テキストデータの作成から一部OCR結果の確認作業に切り替わった。さらに旅費については、コロナウイルスの影響による学会のオンライン開催等により、使用予定額との差額が生じた。次年度は、これまでプロトタイピングにより開発してきた機能の公開に向け、APIサーバの導入等に経費を使用する。

研究成果
(14件)

すべて 2022 2021 その他

すべて雑誌論文 (10件) (うち査読あり 7件) 備考 (4件)

[雑誌論文] デジタル源氏物語（AI画像検索版）：くずし字OCRと編集距離を用いた写本・版本の比較支援システムの開発2022
- 著者名/発表者名
  中村覚, 田村隆, 永崎研宣
- 雑誌名
  
  研究報告人文科学とコンピュータ（CH）
  
  巻: 2022-CH-128(13) ページ: 1-8
[雑誌論文] 部品と画数で漢字を検索するためのUnicode入力支援ツール2022
- 著者名/発表者名
  劉冠偉, 中村覚, 山田太造
- 雑誌名
  
  研究報告人文科学とコンピュータ（CH）
  
  巻: 2022-CH-128(2) ページ: 1-4
[雑誌論文] 日本中世古記録を対象としたトピック抽出自動化システムの構築2022
- 著者名/発表者名
  鳥居克哉, 中村覚, 山田太造, 稗方和夫
- 雑誌名
  
  研究報告人文科学とコンピュータ（CH）
  
  巻: 2022-CH-128(8) ページ: 1-6
[雑誌論文] 相互運用性を高めた日本歴史資料データ実装:『延喜式』TEI と IIIF を事例として2021
- 著者名/発表者名
  小風尚樹, 中村覚, 永崎研宣, 渡辺美紗子, 戸村美月, 小風綾乃, 清武雄二, 後藤真, 小倉慈司
- 雑誌名
  
  じんもんこん2021論文集
  
  巻: 2021 ページ: 294-301
- 査読あり
[雑誌論文] 写真資料のクラウドアノテーションシステムの開発: 『渋沢栄一伝記資料」別巻第 10 を事例に2021
- 著者名/発表者名
  橋本雄太, 金甫榮, 中村覚, 小風尚樹, 井上さやか, 茂原暢, 永崎研宣
- 雑誌名
  
  じんもんこん2021論文集
  
  巻: 2021 ページ: 132-137
- 査読あり
[雑誌論文] データ駆動型歴史情報研究基盤の構築に向けた知識ベースの構築とその活用: 絵図史料を対象として2021
- 著者名/発表者名
  中村覚, 須田牧子, 黒嶋敏, 井上聡, 山田太造
- 雑誌名
  
  じんもんこん2021論文集
  
  巻: 2021 ページ: 88-95
- 査読あり
[雑誌論文] 日本史史料を対象とした研究データ基盤整備における課題2021
- 著者名/発表者名
  山田太造, 中村覚, 渋谷綾子, 大向一輝, 井上聡
- 雑誌名
  
  じんもんこん2021論文集
  
  巻: 2021 ページ: 80-87
- 査読あり
[雑誌論文] Development of data-driven historical information research infrastructure at the Historiographical Institute in the University of Tokyo2021
- 著者名/発表者名
  Satoru Nakamura, Taizo Yamada
- 雑誌名
  
  The 11th International Conference of Japanese Association for Digital Humanities
  
  巻: 11 ページ: 148-151
- 査読あり
[雑誌論文] Development of a support system for extracting mentioned bibliographical data from the Encyclop_die entries2021
- 著者名/発表者名
  Satoru Nakamura, Ayano Kokaze, Yoshiho Iida, Naoki Kokaze, Tatsuo Hemmi
- 雑誌名
  
  The 11th International Conference of Japanese Association for Digital Humanities
  
  巻: 11 ページ: 130-133
- 査読あり
[雑誌論文] Reconstruction and Utilization of Text Data Using TEI: Case study of the Shibusawa Eiichi Denki Shiryo2021
- 著者名/発表者名
  Boyoung Kim, Satoru Nakamura, Yuta Hashimoto, Naoki Kokaze, Sayaka Inoue, Toru Shigehara, Kiyonori Nagasaki
- 雑誌名
  
  The 11th International Conference of Japanese Association for Digital Humanities
  
  巻: 11 ページ: 126-129
- 査読あり
[備考] デジタル源氏物語（AI画像検索版）
- URL
  https://genji-ai.web.app/
[備考] 倭寇図巻デジタルアーカイブ
- URL
  https://www.hi.u-tokyo.ac.jp/collection/degitalgallary/wakozukan/
[備考] 渋沢栄一ダイアリー
- URL
  https://shibusawa-dlab.github.io/app1/
[備考] デジタル延喜式
- URL
  https://khirin-t.rekihaku.ac.jp/engishiki/

2021 年度 実施状況報告書

IIIFとTEIを用いたオンライン翻刻支援システムの開発

研究代表者

中村 覚 東京大学, 史料編纂所, 助教 (80802743)

現在までの達成度 (区分)

理由

研究成果

[雑誌論文] デジタル源氏物語（AI画像検索版）：くずし字OCRと編集距離を用いた写本・版本の比較支援システムの開発2022

著者名/発表者名

雑誌名

[雑誌論文] 部品と画数で漢字を検索するためのUnicode入力支援ツール2022

著者名/発表者名

雑誌名

[雑誌論文] 日本中世古記録を対象としたトピック抽出自動化システムの構築2022

著者名/発表者名

雑誌名

[雑誌論文] 相互運用性を高めた日本歴史資料データ実装:『延喜式』TEI と IIIF を事例として2021

著者名/発表者名

雑誌名

[雑誌論文] 写真資料のクラウドアノテーションシステムの開発: 『渋沢栄一伝記資料」別巻第 10 を事例に2021

著者名/発表者名

雑誌名

[雑誌論文] データ駆動型歴史情報研究基盤の構築に向けた知識ベースの構築とその活用: 絵図史料を対象として2021

著者名/発表者名

雑誌名

[雑誌論文] 日本史史料を対象とした研究データ基盤整備における課題2021

著者名/発表者名

雑誌名

[雑誌論文] Development of data-driven historical information research infrastructure at the Historiographical Institute in the University of Tokyo2021

著者名/発表者名

雑誌名

[雑誌論文] Development of a support system for extracting mentioned bibliographical data from the Encyclop_die entries2021

著者名/発表者名

雑誌名

[雑誌論文] Reconstruction and Utilization of Text Data Using TEI: Case study of the Shibusawa Eiichi Denki Shiryo2021

著者名/発表者名

雑誌名

[備考] デジタル源氏物語（AI画像検索版）

URL

[備考] 倭寇図巻デジタルアーカイブ

URL

[備考] 渋沢栄一ダイアリー

URL

[備考] デジタル延喜式

URL

2021 年度実施状況報告書

中村覚東京大学, 史料編纂所, 助教 (80802743)