新約聖書デジタル写本における深層学習による写字識別キュレーションシステムの構築
Project/Area Number |
19K12714
|
Research Category |
Grant-in-Aid for Scientific Research (C)
|
Allocation Type | Multi-year Fund |
Section | 一般 |
Review Section |
Basic Section 90020:Library and information science, humanistic and social informatics-related
|
Research Institution | Osaka University |
Principal Investigator |
三宅 真紀 大阪大学, 大学院人文学研究科(言語文化学専攻), 准教授 (80448018)
|
Project Period (FY) |
2019-04-01 – 2024-03-31
|
Project Status |
Granted (Fiscal Year 2022)
|
Budget Amount *help |
¥4,420,000 (Direct Cost: ¥3,400,000、Indirect Cost: ¥1,020,000)
Fiscal Year 2022: ¥520,000 (Direct Cost: ¥400,000、Indirect Cost: ¥120,000)
Fiscal Year 2021: ¥1,300,000 (Direct Cost: ¥1,000,000、Indirect Cost: ¥300,000)
Fiscal Year 2020: ¥1,040,000 (Direct Cost: ¥800,000、Indirect Cost: ¥240,000)
Fiscal Year 2019: ¥1,560,000 (Direct Cost: ¥1,200,000、Indirect Cost: ¥360,000)
|
Keywords | 写本デジタル画像 / 人文情報学 / 新約聖書写本 / 深層学習 |
Outline of Research at the Start |
本研究は、人文情報学的アプローチにより、新約聖書写本のデジタル画像を活用して、字形および異読の分析を行い、文字起こし(トランスクリプト)データからは捉えられない特徴を抽出する。写本の画像データは、高精細画像共有規格に準拠してオープン化された情報を活用し、画像データの切り取り、分析データの収集を行う。 分析解析の結果は、国際標準規格に準拠したデータ形式で実装し、共有化写本デジタル画像による仮想コレクションシステムを構築する。最終的に、新約聖書の写字識別キューレーションシステムとして、本研究成果を公開する。
|
Outline of Annual Research Achievements |
本研究は、新約聖書のIIIFに準拠したデジタル写本データを活用し、文字の形状や連なり程度、近傍単語との関係性など、伝統的な校訂本における異読情報のアパラトゥスでは確認できない写字の特徴を把握することを目的としている。 今年度は、写字識別キューレーションシステム構築の準備段階として、IIIF対応画像からの写字の切り出しの作業を中心に進めてきた。バチカン図書館が公開しているデジタル写本、およびLeipzig大学図書館所蔵のIIIF対応したシナイ写本の画像を分析対象と文字データの収集を行った。IIIF image APIからバチカン写本のデジタル画像データにアクセスし、OpenCVライブラリを使用して文字箇所を機切り抜いたデータを取得した。 字形が似ている文字と異なる文字のデータとして、アルファ、ラムダ、イプシロンの文字データのそれぞれ約7000個を用いて、アルファ文字を基準に、ラムダ、イプシロン文字との字形の差について異常検知手法を用いて測定をした。異常検知には、Ruffら(2018)が提唱したOne-Class Deep SVDDとAutoEncoderを用いて深層学習をさせた。その結果、AutoEncoderとDeep SVDDともに字形の似たアルファとラムダのInput-Output差分と異常スコアの分布の重なりが確認され、イプシロンについては、異常スコア分布のばらつきが大きいことが分かった。さらに、異常スコアが高い画像には、インクの濃さや隣接文字の一部が混入しているケースが多いことから、字形とは別の要素が識別に寄与している可能性があることが分かった。
|
Current Status of Research Progress |
Current Status of Research Progress
4: Progress in research has been delayed.
Reason
当初の計画では、 本年度に写字識別キューレーションシステム構築する予定であったが、目視による確認作業に時間がかかっているため、研究進度が遅れている。
|
Strategy for Future Research Activity |
取得した画像URL情報をもとに写字リストの作成を行っているが、切り出し範囲が適切でない箇所については、手作業による抽出範囲の位置情報を更新する作業を余儀なくされた。この目視による作業に、多くの時間と労力を要する手作業を軽減させるために、深層学習を適用した切り抜き補正の自動処理の方法について検討する予定である。
|
Report
(4 results)
Research Products
(1 results)