2021 Fiscal Year Research-status Report
新約聖書デジタル写本における深層学習による写字識別キュレーションシステムの構築
Project/Area Number |
19K12714
|
Research Institution | Osaka University |
Principal Investigator |
三宅 真紀 大阪大学, 言語文化研究科(言語文化専攻), 准教授 (80448018)
|
Project Period (FY) |
2019-04-01 – 2023-03-31
|
Keywords | 写本デジタル画像 / 人文情報学 |
Outline of Annual Research Achievements |
本研究は、人文情報学的アプローチにより、新約聖書写本の大文字写本を対象にして、高精細画像共有規格に準拠したIIIF対応の画像から文字を切り出す、分析用データを作成する。 字形、異読の分析から、トランスクリプトからは捉えられない特徴を 抽出する。文字の形状や連なり程度、ならびに、近傍単語との関係性など、伝統的な校訂本における異読情報のアパラトゥスでは確認できない写字や異読の性質を把握することを目的としている。 今年度は、オンラインで公開されているシナイ写本のうち、IIIFに対応しているLeipzig大学図書館所蔵分を対象とした。前年度に作成したIIIF対応の画像の情報収集するためのスクリプトを活用し、URLの情報から、個々の手書きの文字の画像の位置情報を取得した。自動の文字の切り出し範囲が適切でない箇所については、手作業で、範囲の再設定を行い、文字の画像位置情報の更新を行なった。 字形が似ている文字と異なる文字のデータとして、アルファ、ラムダ、イプシロンの文字データをそれぞれ約7000個用意し、アルファ文字を基準に、どの程度の文字のゆれや、比較文字(ラムダ、イプシロン)文字の字形の差を異常検知手法を用いて測定をした。異常検知には、Ruffら(2018)が提唱したOne-Class Deep SVDDを用いて深層学習をさせ、テストデータのアルファの識別の精度を調べたところ、70%の精度でアルファ文字の判別ができていることが分かった。
|
Current Status of Research Progress |
Current Status of Research Progress
4: Progress in research has been delayed.
Reason
シナイ写本のIIIF非対応の画像の収集後、機械的に文字の切り出しを行ったが、データの品質を高めるために、手作業での文字の位置確認や範囲の修正を行なったため、研究進度が遅れている。
|
Strategy for Future Research Activity |
写字生の識別分析の方針については、ある程度固まっているが、III対応デジタル画像のキュ レーションシステムに利用するプラットフォームの検討が進んでいないため、システム構築に関する調査に早急に着手する。
|
Causes of Carryover |
前年度未使用額もあり、また今年度も旅費が当初の計画通りに執行できなかったため、次年度使用額が生じてしまった。
|