2019 Fiscal Year Research-status Report
Development of Online Transcription System with IIIF and TEI
Project/Area Number |
19K20626
|
Research Institution | The University of Tokyo |
Principal Investigator |
中村 覚 東京大学, 情報基盤センター, 助教 (80802743)
|
Project Period (FY) |
2019-04-01 – 2021-03-31
|
Keywords | IIIF / TEI / 翻刻 / Omeka |
Outline of Annual Research Achievements |
本研究の目的は、オンライン上で複数のユーザが共同で史料を翻刻可能なシステムを開発することである。特に、画像共有のための国際規格であるIIIFや人文学資料のための構造化ルールを定めるTEI等の国際標準規格に準拠することにより、汎用的・国際的に利用可能なシステムの構築を目指す点に特徴がある。 今年度は主にオープンソースのデジタルコンテンツ管理システムである「Omeka」のプラグイン「Scripto」をベースとして、IIIF準拠の画像を入力データとして、オンライン上で複数人が翻刻作業を実施し、翻刻結果をTEI準拠の形式でエクスポートすることが可能なプロトタイプシステムを開発した。さらに、一般的なOCR結果や、くずし字に特化したOCRサービス等との連携についても検討し、プロトタイプシステムへの機能追加を行った。 開発したシステム上で複数人が翻刻作業を行うことで、例えば『校異源氏物語』54巻のうち、45巻の翻刻作業が完了し、「校異源氏物語テキストDB」というウェブサイトで成果を公開している。また翻刻テキストデータを画像や他のDBで公開されているテキストデータと関連づけることにより、作成したテキストデータの活用方法の検討、およびそれに基づく機能要件の改良を進めている。この成果として、「デジタル源氏物語」という画像と各種テキストデータを関連づけ、『源氏物語』の本文研究を支援することを目指したウェブサイトの公開も行った。 今後は、プロトタイプシステムの実用化に向けたシステム改修やドキュメント整備を行い、システムの汎用性の向上を目指す。また、翻刻対象する資料の種類や数を拡充することで、オンライン上での翻刻作業のためのワークフローの効率化に向けた考察を行う。さらに、学会発表等での成果発信を行う。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
本研究課題で構築を目指す翻刻支援システムについて、いくつかのプロトタイプの開発を行った。 一つは研究計画時より導入を想定していたオープンソースのデジタルコンテンツ管理システムである「Omeka」のプラグイン「Scripto」の利用である。本プラグインはIIIF準拠の画像のインポートおよび翻刻結果の保存等の機能は提供しているが、TEI形式でのエクスポート機能は提供されていないため、このエクスポート機能のプロトタイプ開発を行った。また、OCR結果を人手による翻刻作業の前処理として組み込むフローについてもプロトタイプを開発し、そのシステム上で『校異源氏物語』の翻刻作業を複数人で実施している。その成果として、「校異源氏物語テキストDB」を2019年11月に公開し、TEI形式でのテキストデータをCC0のライセンスで提供している。 また、くずし字で書かれた写本等を翻刻対象とする場合のフローについても検討し、プロトタイプ開発を行った。具体的には、人文学オープンデータ共同利用センター(CODH)が提供する「くずし字OCR」を利用するフローを検討し、実際に東京大学総合図書館が所蔵する「源氏物語」54巻への適用を行った。この翻刻テキストデータを複数人でチェック可能な環境を構築し、上述した『校異源氏物語』のテキストデータとの関連づけなどによる翻刻テキストデータの活用を進めている。その成果として、「デジタル源氏物語」を2019年11月に公開した。 なお、研究計画時は翻刻支援システムの適用対象として、東京大学柏図書館所蔵の『平賀譲文書』を対象としていたが、「源氏物語」をケーススタディの対象資料に変更している。この理由は、本研究に参画可能な協力者が多いこと、「くずし字」という一般的なOCRの適用が困難な資料を対象とすることで、翻刻支援システムの機能要件を拡充できること、等を利点として考えたためである。
|
Strategy for Future Research Activity |
今年度に実施した翻刻手順を、第三者が実施できるようにするべく、システムの改修や作業ドキュメントの整備を進める。具体的には、翻刻実施のための前処理および翻刻結果のエクスポート、TEIによる構造化などのワークフローを構築し、その各フローで使用する機能の整理、およびドキュメントの作成等を行う。これにより、システムの相互運用性を高めるための機能追加や改修を行う。 また開発したシステムを用いて、継続して「校異源氏物語」の翻刻テキストデータの作成、および「源氏物語」写本の翻刻テキストデータの活用を進める。「校異源氏物語」の翻刻テキストデータ作成については、2020年6月8日時点で、54巻中45巻が完了している。本研究課題期間中に全巻のテキストデータの作成を目指す。また、「源氏物語」写本の翻刻テキストデータの活用について、2020年6月8日時点では東京大学と九州大学が所蔵する写本が対象となっているが、国文学研究資料館が所蔵する『湖月抄』等にも対象を広げ、「源氏物語」の本文研究プラットホームとしての機能を強化する。 さらに「校異源氏物語」の翻刻テキストデータと青空文庫等で公開されている「源氏物語」の現代語訳テキストデータとの関連づけを行うことにより、本研究課題で構築している翻刻支援システムで作成したテキストデータの活用方法の検討や、システムに対する機能要件のブラッシュアップを進める。 加えて、学会等での本研究課題の成果発信を行う。具体的には、Japanese Association for Digital Humanitiesの年次大会や、情報処理学会・人文科学とコンピュータ研究会、中古文学会等での発表を検討している。
|
Causes of Carryover |
人件費について、機械学習を利用した翻刻作業の一部機械化と、ボランティアベースの協力者の参画により、予定使用額を大きく下回った。前者について、具体的には人文学オープンデータ共同利用センター(CODH)が2019年3月末にアップデートした「くずし字OCR」サービスを利用することで、人手による作業が、テキストデータの作成から一部OCR結果の確認作業に切り替わった。また無料で利用可能なウェブサイトホスティングサービス(GitHub Pages)およびGoogle Firebaseの利用により、サーバレンタル費が大幅に減少した。さらに旅費についても、コロナウイルスの影響による学会キャンセル等により、使用予定額との差額が生じた。 次年度は計算機によるテキスト翻刻支援作業を強化するべく、高性能な計算機の導入によるサーバ環境の増強等を行う。これにより、計算機と人間のハイブリットな作業によるテキスト翻刻作業の効率化を目指す。
|
Remarks |
「校異源氏物語テキストDB」は、本研究課題で構築した翻刻システムを使用して作成した『校異源氏物語』の翻刻テキストデータを公開するウェブサイトである。TEI形式でのテキストデータ公開に加え、LOD形式での公開も行っている。 「デジタル源氏物語」は「校異源氏物語テキストDB」の成果を活用したシステムで、テキストデータを複数の機関が公開する画像や現代語訳テキストと関連づけて公開している。
|
Research Products
(4 results)