2019 Fiscal Year Annual Research Report

蔵書印データベースの高次利用に向けた情報拡充と篆字学習インターフェイスの開発

Research Project

Project/Area Number	18H05304
Allocation Type	Single-year Grants
Research Institution	National Institute of Japanese Literature
Principal Investigator	青田寿美国文学研究資料館, 研究部, 准教授 (10309429)
Co-Investigator(Kenkyū-buntansha)	永崎研宣一般財団法人人文情報学研究所, 人文情報学研究部門, 主席研究員 (30343429) 古勝隆一京都大学, 人文科学研究所, 准教授 (40303903) 白須裕之京都大学, 人文科学研究所, 助教 (30828570)
Project Period (FY)	2018-06-29 – 2022-03-31
Keywords	蔵書印 / 印影、印章 / 篆字部首検索 / 篆字部首・画像検索 / 蔵書形成、書物流通 / 蔵書印データベース / 篆字部首検索システム / 篆字データセット
Outline of Annual Research Achievements	NIJL「蔵書印データベース」に、以下①②の印影データと関連情報を追加・増訂することにより、約４万１千件の蔵書印レコードを対象に高度な検索を実行可能とし、蔵書印影・印主と書物を介した有機的なつながりを可視化する為の情報基盤を整備した。また、③の「篆字部首検索システム」を改修した上で正式版として公開し、５千字超の漢字の篆書体用例を容易に検索可能とした。併せて、篆字初学者向けに学習用資料「篆書の例」を公開した。④の篆字画像データを作成し、⑤のディープラーニングを実施した。 ①国文学研究資料館、聖心女子大学図書館、中央大学中央図書館、早稲田大学図書館及び個人所蔵資料から許諾を得た書誌・書影データ等により、蔵書印レコード数と印影数を増強した。２０２０年３月末時点での公開件数は、蔵書印レコード数：４１，０６６件、印影数：３７，８１９点（レコード数は約１千４百件の増加、印影数は約２千７百点の増加）。 ②印影の［書体］分類検索機能につき、延べ約２万６千件を検索可能とした（約１万件の増加）。また、既存レコードの［蔵書印主］につき、人物の特定と情報の調査を進め［印主職種］［時代］［人物情報］等を公開した（約４百人の増加）。 ③「蔵書印データベース」と連携した「篆字部首検索システム」を改修し、β版を正式版とした。これにより、国立国会図書館の公開画像『偏類六書通』の見出し字へのリンクを完了した（同書で検索できる漢字は約５千１百文字となり、β版から約３千字の増加）。 ④ハーバード大学燕京研究所、お茶の水女子大学附属図書館等の所蔵資料８点から篆字画像を切り出し、親字（見出し字）のUnicodeや原本の座標情報等のタグ付け作業を進めた。切り出した画像は約８万９千点、文字種は約７千６百文字。 ⑤篆字画像の字形機械学習につき、約１３万７千点の篆字データを用いたディープラーニングを実施し、問題点の精査と分析を行った。
Current Status of Research Progress	Current Status of Research Progress 1: Research has progressed more than it was originally planned. Reason ディープラーニング用の学習データ作成と篆字データセット公開に向けて、より多様かつ適切な資料から篆字画像を切り出す必要があり、デジタル画像を公開している国内外の大学図書館等に協力を仰ぎ、切り出し加工とデータ公開の許諾を得た。今年度着手した資料は、お茶の水女子大学附属図書館所蔵『万象千字文』、国立国会図書館所蔵『印篆貫珠』『韻府古篆彙選』『新撰篆書字典』、ハーバード大学燕京研究所所蔵『セキ古遺文』『金石韻府』、早稲田大学図書館所蔵『選集漢印分韻』『朝陽閣字鑒』の合計８点（作業未完の資料２点を含む）、作業した資料のコマ数は２千５百を数える（総計約２千８百コマ中）。これらにより切り出した篆字画像数は約８万９千点で、昨年度より４万１千点を上回る成果を得た。上述の結果を得るために、篆字画像切り出し作業の内製化を企図し、Webベースの画像切り出しツールとタグ付けシステムの環境を整備・導入し、一元管理による効率化を促進した。昨年度、外注による切り出し作業を行った資料『漢篆千字文』『偏類六書通』につき、タグ情報の精査を進めた。また、篆字画像の字形機械学習に質の高いデータセットを提供するため、『偏類六書通』の文字種約５千５百文字・切り出した篆字画像約３万２千点を対象にデータクリーニングを実施し、ディープラーニングに供した。「篆字部首検索システム」を改修し、β版を正式版としてリリースすると同時に、クリエイティブ・コモンズ表示 - 継承 4.0 国際パブリック・ライセンス（CC BY-SA）に基づいて公開を行うこととした。
Strategy for Future Research Activity	篆字画像データの切り出しを継続して行い、タグ情報等の精査を行った上で、篆字データセットとして順次公開する。「蔵書印データベース」および「篆字部首検索システム（テキスト検索版）」にデータの追増と改修を加え、より汎用性のある高度な検索システムの構築を行う。篆字初学者向けの用例を広く採取し、学習用資料「篆書の例」を増補・公開することで、篆書体読解の補助ツールとする。
Remarks	「篆書の例 ―蔵書印に見える頻出字と難読字―」及び「篆書の例 ―主な部首―」のPDF公開 https://base1.nijl.ac.jp/~collectors_seal/seal_script/tensho.pdf

Research Products
(3 results)

All Presentation (1 results) Remarks (2 results)

[Presentation] 蔵書印データベースの高次利用に向けた情報拡充とその展開2019
- Author(s)
  青田寿美
- Organizer
  総研大文化フォーラム2019
[Remarks] 蔵書印データベース
- URL
  http://base1.nijl.ac.jp/~collectors_seal/
[Remarks] 篆字部首検索システム
- URL
  https://base1.nijl.ac.jp/~collectors_seal/seal_script/