2021 Fiscal Year Research-status Report
蔵書印データベースの高次利用に向けた情報拡充と篆字学習インターフェイスの開発
Project/Area Number |
20K20325
|
Research Institution | National Institute of Japanese Literature |
Principal Investigator |
青田 寿美 国文学研究資料館, 研究部, 准教授 (10309429)
|
Co-Investigator(Kenkyū-buntansha) |
永崎 研宣 一般財団法人人文情報学研究所, 人文情報学研究部門, 主席研究員 (30343429)
白須 裕之 京都大学, 人文科学研究所, 助教 (30828570)
古勝 隆一 京都大学, 人文科学研究所, 教授 (40303903)
|
Project Period (FY) |
2020-04-01 – 2023-03-31
|
Keywords | 蔵書印 / 印影、印章 / 篆字部首検索 / 篆字画像検索 / 蔵書形成、書物流通 / 蔵書印データベース / 篆字部首検索システム / 篆書字体データセット |
Outline of Annual Research Achievements |
NIJL「蔵書印データベース」に、以下①②の印影データと関連情報を追加・増訂することにより、約4万4千件の蔵書印レコードを対象に高度な検索を実行可能とし、蔵書印影・印主と書物を介した有機的なつながりを可視化する為の情報基盤を整備した。また、③の篆書体文字画像データを作成・精査し、④の「篆書字体データセット」を公開した。⑤の「篆字部首検索システム」を改修し、7千字超の漢字の篆書体用例を容易に検索し詳細表示を可能とした。 ①聖心女子大学図書館、国文学研究資料館及び個人所蔵資料から許諾を得た書誌・書影データ等により、蔵書印レコード数と印影数を増強した。2022年4月時点での公開件数は、蔵書印レコード数:44,120件、印影数:42,923点(レコード数は約1千件の増加、印影数は2千5百点の増加)。 ②既存レコードの未判読印文の釈読、印影の書体分類、蔵書印主の人物情報精査を進めた。 ③『新撰篆書字典』『印篆貫珠』(国立国会図書館所蔵)、『説文解字』(京都大学人文科学研究所所蔵)、『選集漢印分韻』『朝陽閣字鑑』(早稲田大学図書館)から篆書字体画像を切り出し、親字(見出し字)のUnicodeや原本の座標情報等のタグ付け作業を進めた。切り出した画像は約1万7千8百点。また、『漢篆千字文』を含む6点の資料につき、切り出した篆書体文字画像データの精査を行った。 ④精査の完了した篆書体文字画像データ約7万4千文字を、ROIS-DS人文学オープンデータ共同利用センター(CODH)・一般社団法人人文情報学研究所(DHII)の加工により、「篆書字体データセット」のバージョン2としてCODHから公開した。 ⑤「蔵書印データベース」と連携した「篆字部首検索システム」を改修し、篆書字体画像の表示方法を改良すると共に、IIIF Curation Viewer上で原本画像とハイライト表示した当該文字が参照可能となった。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
データ点検が完了し、公開用ライセンスの使用確認が取れた機関の所蔵資料画像5点につき、切り出した篆書字体画像を「篆書字体データセット」のバージョン2としてROIS-DS人文学オープンデータ共同利用センター(CODH)から公開した。対象資料は、国立国会図書館所蔵『新撰篆書字典』『印篆貫珠』、京都大学人文科学研究所所蔵『説文解字』、早稲田大学図書館所蔵『選集漢印分韻』『朝陽閣字鑑』。データセットの規模は、篆書体文字画像データ74,450文字で、クリエイティブ・コモンズ 表示 - 継承 4.0 国際 ライセンス(CC BY-SA)及びクリエイティブ・コモンズ 表示 - 非営利 - 継承 4.0 国際 ライセンス(CC BY-NC-SA)の下に提供を行った。 公開文字種は5,532の増加となり、篆書字体画像の増強分と併せ、ディープラーニングの準備を進めた。 「篆書字体データセット」を活用し、「篆字部首検索システム」の検索結果に篆書字体画像を表示すると共に、個別の文字をクリックすると原本画像に戻り当該文字をハイライト表示するよう改修を行った。これまで画面の表示幅からはみ出る文字は省略されていたが、改修後はスクロールバーにより全点表示可となった他、典籍ごとに一覧表示する方法に切り替えたことで視認性を向上させた。また、篆字の典拠となる原本画像へのリンクを提供することで情報の検証を容易にした。表示される篆字画像は、ハーバード大学図書館ハーバード燕京図書館所蔵『金石韻府』『セキ古遺文』、新潟大学附属図書館所蔵『聯珠篆文』、お茶の水女子大学附属図書館『万象千字文』、国文学研究資料館所蔵『汗簡』、国立国会図書館所蔵『韻府古篆彙選』『偏類六書通』。従来のリンク表示利用である国立国会図書館デジタルコレクション『漢篆千字文』『偏類六書通』、国文学研究資料館「蔵書印データベース」と併せ利用に供している。
|
Strategy for Future Research Activity |
切り出し済みの篆書字体画像につき継続してタグ情報等の精査を行った上で、「篆書字体データセット」を公開する。「篆書字体データセット」を活用した篆書の字形機械学習の成果により、「篆字画像検索システム(仮称)」の構築と公開を目指す。「蔵書印データベース」および「篆字部首検索システム」にデータの追増と改修を加え、より汎用性のある高度な検索システムの構築を行う。
|
Causes of Carryover |
コロナ禍による参加予定学会や研究会等の開催形態の変更、また、ディープラーニングに必要な資料の情報収集とオープンデータ化の準備等が生じたため。次年度は、3度目となるディープラーニング実施により、「篆字画像検索システム(仮称)」の構築と公開を目指す。
|
Remarks |
※「篆書字体データセット」は、人文学研究データリポジトリにても情報公開あり。 Permalink : http://doi.org/10.20676/00000390 info:doi/10.20676/00000390
|
Research Products
(6 results)