2019 Fiscal Year Annual Research Report
蔵書印データベースの高次利用に向けた情報拡充と篆字学習インターフェイスの開発
Project/Area Number |
18H05304
|
Allocation Type | Single-year Grants |
Research Institution | National Institute of Japanese Literature |
Principal Investigator |
青田 寿美 国文学研究資料館, 研究部, 准教授 (10309429)
|
Co-Investigator(Kenkyū-buntansha) |
永崎 研宣 一般財団法人人文情報学研究所, 人文情報学研究部門, 主席研究員 (30343429)
古勝 隆一 京都大学, 人文科学研究所, 准教授 (40303903)
白須 裕之 京都大学, 人文科学研究所, 助教 (30828570)
|
Project Period (FY) |
2018-06-29 – 2022-03-31
|
Keywords | 蔵書印 / 印影、印章 / 篆字部首検索 / 篆字部首・画像検索 / 蔵書形成、書物流通 / 蔵書印データベース / 篆字部首検索システム / 篆字データセット |
Outline of Annual Research Achievements |
NIJL「蔵書印データベース」に、以下①②の印影データと関連情報を追加・増訂することにより、約4万1千件の蔵書印レコードを対象に高度な検索を実行可能とし、蔵書印影・印主と書物を介した有機的なつながりを可視化する為の情報基盤を整備した。また、③の「篆字部首検索システム」を改修した上で正式版として公開し、5千字超の漢字の篆書体用例を容易に検索可能とした。併せて、篆字初学者向けに学習用資料「篆書の例」を公開した。④の篆字画像データを作成し、⑤のディープラーニングを実施した。 ①国文学研究資料館、聖心女子大学図書館、中央大学中央図書館、早稲田大学図書館及び個人所蔵資料から許諾を得た書誌・書影データ等により、蔵書印レコード数と印影数を増強した。2020年3月末時点での公開件数は、蔵書印レコード数:41,066件、印影数:37,819点(レコード数は約1千4百件の増加、印影数は約2千7百点の増加)。 ②印影の[書体]分類検索機能につき、延べ約2万6千件を検索可能とした(約1万件の増加)。また、既存レコードの[蔵書印主]につき、人物の特定と情報の調査を進め[印主職種][時代][人物情報]等を公開した(約4百人の増加)。 ③「蔵書印データベース」と連携した「篆字部首検索システム」を改修し、β版を正式版とした。これにより、国立国会図書館の公開画像『偏類六書通』の見出し字へのリンクを完了した(同書で検索できる漢字は約5千1百文字となり、β版から約3千字の増加)。 ④ハーバード大学燕京研究所、お茶の水女子大学附属図書館等の所蔵資料8点から篆字画像を切り出し、親字(見出し字)のUnicodeや原本の座標情報等のタグ付け作業を進めた。切り出した画像は約8万9千点、文字種は約7千6百文字。 ⑤篆字画像の字形機械学習につき、約13万7千点の篆字データを用いたディープラーニングを実施し、問題点の精査と分析を行った。
|
Current Status of Research Progress |
Current Status of Research Progress
1: Research has progressed more than it was originally planned.
Reason
ディープラーニング用の学習データ作成と篆字データセット公開に向けて、より多様かつ適切な資料から篆字画像を切り出す必要があり、デジタル画像を公開している国内外の大学図書館等に協力を仰ぎ、切り出し加工とデータ公開の許諾を得た。今年度着手した資料は、お茶の水女子大学附属図書館所蔵『万象千字文』、国立国会図書館所蔵『印篆貫珠』『韻府古篆彙選』『新撰篆書字典』、ハーバード大学燕京研究所所蔵『セキ古遺文』『金石韻府』、早稲田大学図書館所蔵『選集漢印分韻』『朝陽閣字鑒』の合計8点(作業未完の資料2点を含む)、作業した資料のコマ数は2千5百を数える(総計約2千8百コマ中)。これらにより切り出した篆字画像数は約8万9千点で、昨年度より4万1千点を上回る成果を得た。 上述の結果を得るために、篆字画像切り出し作業の内製化を企図し、Webベースの画像切り出しツールとタグ付けシステムの環境を整備・導入し、一元管理による効率化を促進した。 昨年度、外注による切り出し作業を行った資料『漢篆千字文』『偏類六書通』につき、タグ情報の精査を進めた。また、篆字画像の字形機械学習に質の高いデータセットを提供するため、『偏類六書通』の文字種約5千5百文字・切り出した篆字画像約3万2千点を対象にデータクリーニングを実施し、ディープラーニングに供した。 「篆字部首検索システム」を改修し、β版を正式版としてリリースすると同時に、クリエイティブ・コモンズ 表示 - 継承 4.0 国際 パブリック・ライセンス(CC BY-SA)に基づいて公開を行うこととした。
|
Strategy for Future Research Activity |
篆字画像データの切り出しを継続して行い、タグ情報等の精査を行った上で、篆字データセットとして順次公開する。「蔵書印データベース」および「篆字部首検索システム(テキスト検索版)」にデータの追増と改修を加え、より汎用性のある高度な検索システムの構築を行う。篆字初学者向けの用例を広く採取し、学習用資料「篆書の例」を増補・公開することで、篆書体読解の補助ツールとする。
|
Remarks |
「篆書の例 ―蔵書印に見える頻出字と難読字―」及び「篆書の例 ―主な部首―」のPDF公開 https://base1.nijl.ac.jp/~collectors_seal/seal_script/tensho.pdf
|
Research Products
(3 results)