研究課題/領域番号 |
19K12714
|
研究種目 |
基盤研究(C)
|
配分区分 | 基金 |
応募区分 | 一般 |
審査区分 |
小区分90020:図書館情報学および人文社会情報学関連
|
研究機関 | 大阪大学 |
研究代表者 |
三宅 真紀 大阪大学, 大学院人文学研究科(言語文化学専攻), 准教授 (80448018)
|
研究期間 (年度) |
2019-04-01 – 2024-03-31
|
研究課題ステータス |
交付 (2022年度)
|
配分額 *注記 |
4,420千円 (直接経費: 3,400千円、間接経費: 1,020千円)
2022年度: 520千円 (直接経費: 400千円、間接経費: 120千円)
2021年度: 1,300千円 (直接経費: 1,000千円、間接経費: 300千円)
2020年度: 1,040千円 (直接経費: 800千円、間接経費: 240千円)
2019年度: 1,560千円 (直接経費: 1,200千円、間接経費: 360千円)
|
キーワード | 写本デジタル画像 / 人文情報学 / 新約聖書写本 / 深層学習 |
研究開始時の研究の概要 |
本研究は、人文情報学的アプローチにより、新約聖書写本のデジタル画像を活用して、字形および異読の分析を行い、文字起こし(トランスクリプト)データからは捉えられない特徴を抽出する。写本の画像データは、高精細画像共有規格に準拠してオープン化された情報を活用し、画像データの切り取り、分析データの収集を行う。 分析解析の結果は、国際標準規格に準拠したデータ形式で実装し、共有化写本デジタル画像による仮想コレクションシステムを構築する。最終的に、新約聖書の写字識別キューレーションシステムとして、本研究成果を公開する。
|
研究実績の概要 |
本研究は、新約聖書のIIIFに準拠したデジタル写本データを活用し、文字の形状や連なり程度、近傍単語との関係性など、伝統的な校訂本における異読情報のアパラトゥスでは確認できない写字の特徴を把握することを目的としている。 今年度は、写字識別キューレーションシステム構築の準備段階として、IIIF対応画像からの写字の切り出しの作業を中心に進めてきた。バチカン図書館が公開しているデジタル写本、およびLeipzig大学図書館所蔵のIIIF対応したシナイ写本の画像を分析対象と文字データの収集を行った。IIIF image APIからバチカン写本のデジタル画像データにアクセスし、OpenCVライブラリを使用して文字箇所を機切り抜いたデータを取得した。 字形が似ている文字と異なる文字のデータとして、アルファ、ラムダ、イプシロンの文字データのそれぞれ約7000個を用いて、アルファ文字を基準に、ラムダ、イプシロン文字との字形の差について異常検知手法を用いて測定をした。異常検知には、Ruffら(2018)が提唱したOne-Class Deep SVDDとAutoEncoderを用いて深層学習をさせた。その結果、AutoEncoderとDeep SVDDともに字形の似たアルファとラムダのInput-Output差分と異常スコアの分布の重なりが確認され、イプシロンについては、異常スコア分布のばらつきが大きいことが分かった。さらに、異常スコアが高い画像には、インクの濃さや隣接文字の一部が混入しているケースが多いことから、字形とは別の要素が識別に寄与している可能性があることが分かった。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
4: 遅れている
理由
当初の計画では、 本年度に写字識別キューレーションシステム構築する予定であったが、目視による確認作業に時間がかかっているため、研究進度が遅れている。
|
今後の研究の推進方策 |
取得した画像URL情報をもとに写字リストの作成を行っているが、切り出し範囲が適切でない箇所については、手作業による抽出範囲の位置情報を更新する作業を余儀なくされた。この目視による作業に、多くの時間と労力を要する手作業を軽減させるために、深層学習を適用した切り抜き補正の自動処理の方法について検討する予定である。
|