研究課題/領域番号 |
18K00611
|
研究機関 | 京都大学 |
研究代表者 |
守岡 知彦 京都大学, 人文科学研究所, 助教 (40324701)
|
研究分担者 |
高田 智和 大学共同利用機関法人人間文化研究機構国立国語研究所, 言語変化研究領域, 准教授 (90415612)
|
研究期間 (年度) |
2018-04-01 – 2021-03-31
|
キーワード | 漢字字体 / 文字情報 / デジタルアーカイブズ / データセット / データ保存 |
研究実績の概要 |
情報処理学会人文科学とコンピュータ研究会(2019年5月11日)と日本語学会2019年度秋季大会で HNG データセットおよびその Web 用検索サービスである「HNG 単字検索」に関する研究発表を行い研究者コミュニティーと意見交換を行った。また、2019年7月26日に「第31回東洋学へのコンピュータ利用」との併催で漢字字体規範史データセット保存会第2回総会を開催し、ユーザーとの意見交換を行った。 また、HNG データセット(およびその前身である「石塚漢字字体資料」)の字体整理に用いられた大字典のデータセット化および CHISE との統合を行い、その成果を「じんもんこん2019」で発表した。 また、HNG の字体データとそのソースである原資料の全文データのリンクを実現するために、試験的にフランス国立図書館の電子図書館 Gallica で公開されているペリオコレクション(敦煌文書)のうち P.2334(妙法蓮華経)と P.2195(妙法蓮華経)の文字を1つづつ切り出したデータ(切り出し字形データ)を HNG データセットと対象可能な形でデータセット化し、https://gitlab.hng-data.org/HNG/hng-kiridashi-data で公開した。また、CHISE との統合を試み、「HNG 単字検索」や「CHISE-IDS HNG 漢字検索」の検索結果をたどることで字体データや「石塚漢字字体資料」の紙カード画像と IIIF Image API を用いて表示したペリオコレクションの切り出し字形を比較対象可能な形で表示するシステムを開発し、CHISE-wiki (EsT) の一部として公開した。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
HNG のバックアップデータの整理作業及び Git リポジトリ化作業としては、阿毘達磨大毘婆沙論卷百七十八(正倉院本)、守屋本花厳経巻六十七、守屋本花厳経巻六十八、四分律卷第十六(正倉院五月一日經)、四分律巻第二十(正倉院唐經)の5資料の Git リポジトリへの追加が挙げられる。これにより合計60資料が公開できた。また、複数の版の文字データを比較するためのデータ作成を試みた。 また、用語集の準備の一環として、北海道大学名誉教授石塚晴通氏へのインタビュー記事の英訳を行なった。 現代的な Web 技術の利用の一環として、前年度に「HNG 単字検索」を公開したが、これに関する公開後のフィードバック等に基づきバグフィックスや改良を進めた。 全文画像の切り出しと整理に関しては、HNG に合わせた切り出し字形データの整理が懸案となっていたが、関係者での会合を通じて現状利用可能な情報を利用して機械的にある程度妥当な整理を行うための手法を開発することができ、フランス国立図書館の電子図書館 Gallica で公開されているペリオコレクション(敦煌文書)の画像を使って実際に2文献についてデータセット化することができ、また、これを CHISE-wiki (EsT) の一部として公開することができた。これにより、HNG に収録されている文献に関しては同様の方法で統合作業ができるようになった。また、国立国語研究所が所蔵する大般若波羅蜜多経巻第二百(春日版)を撮影し、https://dglb01.ninjal.ac.jp/ninjaldl/bunken.php?title=daihannya で公開した。これにより既存の HNG 収録の仏典にある字形との比較の準備、及び、HNG 未収録の字形を扱うための準備を行うことができた。
|
今後の研究の推進方策 |
HNG のバックアップデータの整理作業及び Git リポジトリ化作業としては、残りの3資料の整理を引き続き行うと共に、データ編纂や拡張に伴う字体整理ポリシーを追えるように複数の時点でのデータを Git のブランチとして表現する試みを進める。 また、これまでに行った北海道大学名誉教授石塚晴通氏へのインタビューの内容やその英訳を元に用語集の整備を進める。但し、COVID-19 の影響により追加インタビューの実施は困難だと思われるため、過去の文書やデータを元に関係者によるオンラインミーティングによる補完を試みる。 全文画像の切り出しと整理に関しては、これまでに作成した切り出し字形データの整理を行うとともに、新規資料の撮影及び字形切り出し作業を引き続き行う。 COVID-19 の影響により、2020年度に予定していた国際会議等での発表は難しくなったため、研究成果の広報やユーザーとのコミュニケーションに関してはオンラインミーティング等を利用しその時利用可能な方法を活用することを試みる。
|
次年度使用額が生じた理由 |
COVID-19 の影響により予定していた出張がキャンセルになり、急遽、オンライン会議用の動画撮影やデータの一時保存・配送用に SSD を購入したが全てを使い切ることができなかった。ただ、この残額は少額であるため、次年度に予定されている公開用サーバーや関連機材の購入費用の一部に宛てることにした。
|