2021 Fiscal Year Research-status Report

Development of Online Transcription System with IIIF and TEI

Research Project

Project/Area Number	19K20626
Research Institution	The University of Tokyo
Principal Investigator	中村覚東京大学, 史料編纂所, 助教 (80802743)
Project Period (FY)	2019-04-01 – 2023-03-31
Keywords	TEI / くずし字OCR / 編集距離 / 源氏物語 / VSCode / Omeka
Outline of Annual Research Achievements	2020年度より、人間と機械の両者によるテキストデータの作成支援に取り組んでいる。人間によるテキストデータ作成支援に関する研究の成果として、OSSのソースコードエディタであるVSCodeの拡張機能として翻刻支援システムの開発と公開を行なった。具体的には、TEIによるルビ（ruby）や校異情報（app）、および割注などのマークアップを支援する機能をVSCodeの拡張機能として開発した。またXMLファイルの編集に合わせて、表示結果例をリアルタイムにプレビュー可能な機能も提供する。これらの機能を用いることにより、TEIを用いたテキストデータの作成を支援する。機械によるテキストデータ作成支援に関する研究の成果として、「デジタル源氏物語（AI画像検索版）」というウェブサイトを構築・公開した。本ウェブサイトの特徴として、くずし字OCRと編集距離を利用して、テキストデータが類似する写本・版本の画像を自動的に推薦する機能を提供する。本ウェブサイトを通じて、一部認識誤りを含むOCRテキストデータの利用方法の一例を示すことができた。また、本ウェブサイトの構築に合わせて、CODH（人文学オープンデータ共同利用センター）が公開する「くずし字データセット」を用いて独自のくずし字OCRモデルを開発した。深層学習を用いた文字検出と文字認識、および読み順の自動推定を行う3つのステージから構成される。今後、本モデルの公開を行い、第三者が利用可能な環境を整備する。
Current Status of Research Progress	Current Status of Research Progress 2: Research has progressed on the whole more than it was originally planned. Reason 研究開始時においては、オープンソースのデジタルコンテンツ管理システムである「Omeka」のプラグイン開発のみを計画していた。しかし、2021年度からVSCodeのプラグイン開発に着手した。VSCodeはテキストエディタのデファクトスタンダードとして広く利用されており、さまざまなプラグイン（Visual Studio Live Share：リアルタイムの共同開発、など）が既に開発されている。また、TEIによるマークアップを支援するプラグイン（例：Scholary XMLやtei-publisher-vscodeなど）も複数開発されている。これらのプラグインと今回開発するプラグインを組み合わせて利用することにより、TEI/XMLを用いた翻刻テキストの作成を効率的に進めることが可能となる。特に、Omekaのプラグイン「Scripto」を用いた場合と比較して、書誌情報（teiHeader）や校異情報（app）など、より詳細な翻刻テキストデータの作成を支援することができる。一方、Scriptoを使用した場合に比べて、簡便さは失われる（TEI/XMLの知識が一部求められる）ため、目的や環境に応じて、OmekaとVSCodeを使い分けて使用することができる。このように、当初予定していたツール以外の開発にも着手することができ、研究課題が順調に進展している。
Strategy for Future Research Activity	今後は以下の課題に取り組む。 (1)VSCodeの拡張機能の改良、(2)Omeka Sのプラグイン「Scripto」を含む、翻刻環境の導入と使用方法に関するドキュメンテーション、(3)くずし字認識モデルの公開、(4)開発したツールの実適用 (1)について、開発したVSCodeの拡張機能は既に公開済みであり、第三者が利用できるようになっている。そのため、第三者の利用によるフィードバック等に基づき、機能改良を行う。(2)については、これまで開発したツール群を第三者が利用できるようにするための環境構築である。特に「Scripto」の使用方法に関するドキュメントを作成し、インターネット上で公開する。(3)については、今年度作成したくずし字認識モデルを第三者が利用できるようにするための環境構築である。2と同様、開発したモデルの使用方法に関するドキュメンテーションも含めて用意し、インターネット上で公開する。(4)については、1および2で述べたツールを実際の翻刻プロジェクトに適用し、有用性を評価することが目的である。これまでの『校異源氏物語』のテキストデータ作成への適用に加えて、校異情報のマークアップを含む、より詳細な翻刻テキストデータの作成プロジェクトへの適用を予定している。
Causes of Carryover	次年度使用額が生じた理由として、人件費と旅費に計画の変更が生じたことが挙げられる。人件費について、機械学習を利用した翻刻作業の一部機械化と、ボランティアベースの協力者の参画により、予定使用額を大きく下回った。前者について、具体的には人文学オープンデータ共同利用センター(CODH)が提供する「くずし字OCR」サービスおよび独自に開発したくずし字OCRモデルを利用することで、人手による作業が、テキストデータの作成から一部OCR結果の確認作業に切り替わった。さらに旅費については、コロナウイルスの影響による学会のオンライン開催等により、使用予定額との差額が生じた。次年度は、これまでプロトタイピングにより開発してきた機能の公開に向け、APIサーバの導入等に経費を使用する。

Research Products
(14 results)

All 2022 2021 Other

All Journal Article (10 results) (of which Peer Reviewed: 7 results) Remarks (4 results)

[Journal Article] デジタル源氏物語（AI画像検索版）：くずし字OCRと編集距離を用いた写本・版本の比較支援システムの開発2022
- Author(s)
  中村覚, 田村隆, 永崎研宣
- Journal Title
  
  研究報告人文科学とコンピュータ（CH）
  
  Volume: 2022-CH-128(13) Pages: 1-8
[Journal Article] 部品と画数で漢字を検索するためのUnicode入力支援ツール2022
- Author(s)
  劉冠偉, 中村覚, 山田太造
- Journal Title
  
  研究報告人文科学とコンピュータ（CH）
  
  Volume: 2022-CH-128(2) Pages: 1-4
[Journal Article] 日本中世古記録を対象としたトピック抽出自動化システムの構築2022
- Author(s)
  鳥居克哉, 中村覚, 山田太造, 稗方和夫
- Journal Title
  
  研究報告人文科学とコンピュータ（CH）
  
  Volume: 2022-CH-128(8) Pages: 1-6
[Journal Article] 相互運用性を高めた日本歴史資料データ実装:『延喜式』TEI と IIIF を事例として2021
- Author(s)
  小風尚樹, 中村覚, 永崎研宣, 渡辺美紗子, 戸村美月, 小風綾乃, 清武雄二, 後藤真, 小倉慈司
- Journal Title
  
  じんもんこん2021論文集
  
  Volume: 2021 Pages: 294-301
- Peer Reviewed
[Journal Article] 写真資料のクラウドアノテーションシステムの開発: 『渋沢栄一伝記資料」別巻第 10 を事例に2021
- Author(s)
  橋本雄太, 金甫榮, 中村覚, 小風尚樹, 井上さやか, 茂原暢, 永崎研宣
- Journal Title
  
  じんもんこん2021論文集
  
  Volume: 2021 Pages: 132-137
- Peer Reviewed
[Journal Article] データ駆動型歴史情報研究基盤の構築に向けた知識ベースの構築とその活用: 絵図史料を対象として2021
- Author(s)
  中村覚, 須田牧子, 黒嶋敏, 井上聡, 山田太造
- Journal Title
  
  じんもんこん2021論文集
  
  Volume: 2021 Pages: 88-95
- Peer Reviewed
[Journal Article] 日本史史料を対象とした研究データ基盤整備における課題2021
- Author(s)
  山田太造, 中村覚, 渋谷綾子, 大向一輝, 井上聡
- Journal Title
  
  じんもんこん2021論文集
  
  Volume: 2021 Pages: 80-87
- Peer Reviewed
[Journal Article] Development of data-driven historical information research infrastructure at the Historiographical Institute in the University of Tokyo2021
- Author(s)
  Satoru Nakamura, Taizo Yamada
- Journal Title
  
  The 11th International Conference of Japanese Association for Digital Humanities
  
  Volume: 11 Pages: 148-151
- Peer Reviewed
[Journal Article] Development of a support system for extracting mentioned bibliographical data from the Encyclop_die entries2021
- Author(s)
  Satoru Nakamura, Ayano Kokaze, Yoshiho Iida, Naoki Kokaze, Tatsuo Hemmi
- Journal Title
  
  The 11th International Conference of Japanese Association for Digital Humanities
  
  Volume: 11 Pages: 130-133
- Peer Reviewed
[Journal Article] Reconstruction and Utilization of Text Data Using TEI: Case study of the Shibusawa Eiichi Denki Shiryo2021
- Author(s)
  Boyoung Kim, Satoru Nakamura, Yuta Hashimoto, Naoki Kokaze, Sayaka Inoue, Toru Shigehara, Kiyonori Nagasaki
- Journal Title
  
  The 11th International Conference of Japanese Association for Digital Humanities
  
  Volume: 11 Pages: 126-129
- Peer Reviewed
[Remarks] デジタル源氏物語（AI画像検索版）
- URL
  https://genji-ai.web.app/
[Remarks] 倭寇図巻デジタルアーカイブ
- URL
  https://www.hi.u-tokyo.ac.jp/collection/degitalgallary/wakozukan/
[Remarks] 渋沢栄一ダイアリー
- URL
  https://shibusawa-dlab.github.io/app1/
[Remarks] デジタル延喜式
- URL
  https://khirin-t.rekihaku.ac.jp/engishiki/

2021 Fiscal Year Research-status Report

Development of Online Transcription System with IIIF and TEI

Principal Investigator

中村 覚 東京大学, 史料編纂所, 助教 (80802743)

Current Status of Research Progress

Reason

Research Products

[Journal Article] デジタル源氏物語（AI画像検索版）：くずし字OCRと編集距離を用いた写本・版本の比較支援システムの開発2022

Author(s)

Journal Title

[Journal Article] 部品と画数で漢字を検索するためのUnicode入力支援ツール2022

Author(s)

Journal Title

[Journal Article] 日本中世古記録を対象としたトピック抽出自動化システムの構築2022

Author(s)

Journal Title

[Journal Article] 相互運用性を高めた日本歴史資料データ実装:『延喜式』TEI と IIIF を事例として2021

Author(s)

Journal Title

[Journal Article] 写真資料のクラウドアノテーションシステムの開発: 『渋沢栄一伝記資料」別巻第 10 を事例に2021

Author(s)

Journal Title

[Journal Article] データ駆動型歴史情報研究基盤の構築に向けた知識ベースの構築とその活用: 絵図史料を対象として2021

Author(s)

Journal Title

[Journal Article] 日本史史料を対象とした研究データ基盤整備における課題2021

Author(s)

Journal Title

[Journal Article] Development of data-driven historical information research infrastructure at the Historiographical Institute in the University of Tokyo2021

Author(s)

Journal Title

[Journal Article] Development of a support system for extracting mentioned bibliographical data from the Encyclop_die entries2021

Author(s)

Journal Title

[Journal Article] Reconstruction and Utilization of Text Data Using TEI: Case study of the Shibusawa Eiichi Denki Shiryo2021

Author(s)

Journal Title

[Remarks] デジタル源氏物語（AI画像検索版）

URL

[Remarks] 倭寇図巻デジタルアーカイブ

URL

[Remarks] 渋沢栄一ダイアリー

URL

[Remarks] デジタル延喜式

URL

中村覚東京大学, 史料編纂所, 助教 (80802743)