2020 Fiscal Year Research-status Report
Development of Online Transcription System with IIIF and TEI
Project/Area Number |
19K20626
|
Research Institution | The University of Tokyo |
Principal Investigator |
中村 覚 東京大学, 史料編纂所, 助教 (80802743)
|
Project Period (FY) |
2019-04-01 – 2022-03-31
|
Keywords | IIIF / TEI / 翻刻 / Omeka / くずし字 / OCR |
Outline of Annual Research Achievements |
本研究の目的は、オンライン上で複数のユーザが共同で史料を翻刻可能なシステムを開発することである。特に、画像共有のための国際規格であるIIIFや人文学資料のための構造化ルールを定めるTEI等の国際標準規格に準拠することにより、汎用的・国際的に利用可能なシステムの構築を目指す点に特徴がある。 昨年度は、主にオープンソースのデジタルコンテンツ管理システムである「Omeka」のプラグイン「Scripto」をベースとして、IIIF準拠の画像を入力データとして、オンライン上で複数人が翻刻作業を実施し、翻刻結果をTEI準拠の形式でエクスポートすることが可能なプロトタイプシステムを開発した。 今年度は、プロトタイプシステムの実用化に向けたシステムの改修やドキュメントの整備、および翻刻作業の継続を行った。特にシステム上で複数人が翻刻作業を実施することにより、『源氏物語』の主要本文の校異を示した研究書である『校異源氏物語』54巻すべての翻刻テキストデータの作成が完了し、これらを『校異源氏物語』のテキストデータを公開するデータベース「校異源氏物語テキストDB」にて公開した。なお、二次利用を促進することを意図して、CC0のライセンスを付与して公開し、さらにRDFデータも合わせて提供することにより、機械可読性の向上にも努めた。 また、作成した『校異源氏物語』のテキストデータの活用にも取り組んだ。『校異源氏物語』のテキストデータと『源氏物語』の諸本(「東大本」「九大本」「湖月抄」など)を頁単位で照合して閲覧できる機能を提供するサイト「デジタル源氏物語」では、54巻分すべてのデータ作成が完了し、「デジタル源氏物語 Ver.YUMENOUKIHASHI」としてリニューアル公開を行った。 さらに、上記の取り組みを学会等で発表することにより、本研究課題の成果報告を実施した。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
本研究課題で構築を目指す翻刻支援システムについて、基本的なシステム開発は完了し、翻刻データの作成、およびそれに伴うシステム改修を進めている。さらに、昨年度から検討を進めている機械学習技術の応用、具体的には、人文学オープンデータ共同利用センター(CODH)が提供する「くずし字OCR」を利用したテキストデータの活用フローの実用化を進めた。 翻刻データの作成については、『校異源氏物語』54巻分のテキストデータの作成が完了した。さらに、これらのテキストデータの活用を意図して、『源氏物語』の諸本(「東大本」「九大本」「湖月抄」など)の頁番号の対応づけ、および青空文庫で公開されている与謝野晶子現代語訳との対応づけを進めている。 前者については、「くずし字OCR」を活用し、校異源氏物語のテキストデータと各諸本のOCR結果の編集距離を算出し、各諸本に対して校異源氏物語の頁番号を半自動的に付与するシステムを開発した。機械的に付与した結果を人手で校正する機能も合わせて開発し、作業の効率化を実現した。その結果、東大本、湖月抄(国文研所蔵)について、54巻分すべての頁番号の対応づけが完了した。今後は、翻刻作業の効率化における本仕組みの活用可能性について検討していく。 後者については、『校異源氏物語』のテキストデータに対して、現代語訳の対応箇所を記録可能なシステムを構築した。具体的には、Googleドキュメントに機械的に変換した『校異源氏物語』のテキストデータと、各文に対してTEIによりIDを付与した現代語訳のテキストデータを入力として、現代語訳のIDをGoogleドキュメントに挿入可能なシステムを開発した。本システムを活用することにより、54巻中9巻の対応づけが完了した。今後、このような仕組みを活用し、Omekaの翻刻プラグイン「Scripto」の改良に繋げていく。
|
Strategy for Future Research Activity |
今後は、「人手によるデータ作成の継続」と「自動化による作業の効率化」の2軸で研究を進める。 「人手によるデータ作成の継続」については、引き続き開発したシステムを用いて、「源氏物語」に関するデータ作成を進める。今後は、すでにIIIF対応かつ自由利用可能として公開されている源氏物語(伝嵯峨本(国会図書館所蔵)や中院文庫本(京都大学所蔵)など)へと対象を拡大する予定である。また『校異源氏物語』のテキストデータと青空文庫等で公開されている現代語訳テキストデータとの関連づけについて、2020年度には9巻の対応付けが完了しているが、2021年度には54巻分すべての完了を目指す。 一方、上記で作成したデータの活用および本手法の大規模データへの適用を意図として「自動化による作業の効率化」についても取り組む。具体的には、『校異源氏物語』の翻刻テキストデータとくずし字OCRによる諸本翻刻との類似度(編集距離)を算出し、類似度の高い見開きページ(画像)を自動的に提示する仕組みを開発している。「くずし字OCR」の活用については、これまでは人手による確認作業の前処理としての利用を意図していたが、今後は、人手を介さない・大規模データへの適用も可能なフローについて検討する。なお、2021年4月末に、本仕組みを使ったプロトタイプシステム「デジタル源氏物語(AI画像検索版)」を公開している。本仕組みを活用することで、『校異源氏物語』と諸本の半自動的な照合作業を、大規模なデータに対して適用することが可能となり、それに基づく翻刻作業の効率化などにつながることが期待される。 加えて、学会等での本研究課題の成果発信を行う。具体的には、Japanese Association for Digital Humanitiesの年次大会や、情報処理学会・人文科学とコンピュータ研究会、中古文学会等での発表を検討している。
|
Causes of Carryover |
次年度使用額が生じた理由として、人件費と旅費に計画の変更が生じたことが挙げられる。人件費について、機械学習を利用した翻刻作業の一部機械化と、ボランティアベースの協力者の参画により、予定使用額を大きく下回った。前者について、具体的には人文学オープンデータ共同利用センター(CODH)が2019年3月末にアップデートを実施した「くずし字OCR」サービスを利用することで、人手による作業が、テキストデータの作成から一部OCR結果の確認作業に切り替わった。さらに旅費については、コロナウイルスの影響による学会キャンセル等により、使用予定額との差額が生じた。 次年度は、これまでプロトタイピングにより開発してきた機能の実用化に向け、システム開発業者への一部機能の発注を計画している。またCODHの「くずし字OCR」に加え、様々な年代のテキストを翻刻対象にすることを意図して、有償のOCRサービス(LINE OCR、Google Cloud Vison APIなど)の適用可能性についても検討を行う。
|
Remarks |
「校異源氏物語テキストDB」は、本研究課題で構築した翻刻システムを使用して作成した『校異源氏物語』の翻刻テキストデータを公開するウェブサイトである。TEI形式でのテキストデータ公開に加え、LOD形式での公開も行っている。 「デジタル源氏物語」は「校異源氏物語テキストDB」の成果を活用したシステムで、テキストデータを複数の機関が公開する画像や現代語訳テキストと関連づけて公開している。
|
Research Products
(11 results)