2022 Fiscal Year Research-status Report
新約聖書デジタル写本における深層学習による写字識別キュレーションシステムの構築
Project/Area Number |
19K12714
|
Research Institution | Osaka University |
Principal Investigator |
三宅 真紀 大阪大学, 大学院人文学研究科(言語文化学専攻), 准教授 (80448018)
|
Project Period (FY) |
2019-04-01 – 2024-03-31
|
Keywords | 写本デジタル画像 / 人文情報学 |
Outline of Annual Research Achievements |
本研究は、新約聖書のIIIFに準拠したデジタル写本データを活用し、文字の形状や連なり程度、近傍単語との関係性など、伝統的な校訂本における異読情報のアパラトゥスでは確認できない写字の特徴を把握することを目的としている。 今年度は、写字識別キューレーションシステム構築の準備段階として、IIIF対応画像からの写字の切り出しの作業を中心に進めてきた。バチカン図書館が公開しているデジタル写本、およびLeipzig大学図書館所蔵のIIIF対応したシナイ写本の画像を分析対象と文字データの収集を行った。IIIF image APIからバチカン写本のデジタル画像データにアクセスし、OpenCVライブラリを使用して文字箇所を機切り抜いたデータを取得した。 字形が似ている文字と異なる文字のデータとして、アルファ、ラムダ、イプシロンの文字データのそれぞれ約7000個を用いて、アルファ文字を基準に、ラムダ、イプシロン文字との字形の差について異常検知手法を用いて測定をした。異常検知には、Ruffら(2018)が提唱したOne-Class Deep SVDDとAutoEncoderを用いて深層学習をさせた。その結果、AutoEncoderとDeep SVDDともに字形の似たアルファとラムダのInput-Output差分と異常スコアの分布の重なりが確認され、イプシロンについては、異常スコア分布のばらつきが大きいことが分かった。さらに、異常スコアが高い画像には、インクの濃さや隣接文字の一部が混入しているケースが多いことから、字形とは別の要素が識別に寄与している可能性があることが分かった。
|
Current Status of Research Progress |
Current Status of Research Progress
4: Progress in research has been delayed.
Reason
当初の計画では、 本年度に写字識別キューレーションシステム構築する予定であったが、目視による確認作業に時間がかかっているため、研究進度が遅れている。
|
Strategy for Future Research Activity |
取得した画像URL情報をもとに写字リストの作成を行っているが、切り出し範囲が適切でない箇所については、手作業による抽出範囲の位置情報を更新する作業を余儀なくされた。この目視による作業に、多くの時間と労力を要する手作業を軽減させるために、深層学習を適用した切り抜き補正の自動処理の方法について検討する予定である。
|
Causes of Carryover |
画像データの目視による作業に予想以上の時間がかかってしまっているためと、手作業の処理を軽減するための方法を検討するために、研究期間の延長が必要になった。 次年度予算で、深層学習を適用した切り抜き補正の自動処理の手法を調査するための図書等の購入や、画像データ処理を行うためのパソコンを購入する予定である。
|