研究課題/領域番号 |
18K00611
|
研究機関 | 京都大学 |
研究代表者 |
守岡 知彦 京都大学, 人文科学研究所, 助教 (40324701)
|
研究分担者 |
高田 智和 大学共同利用機関法人人間文化研究機構国立国語研究所, 言語変化研究領域, 准教授 (90415612)
|
研究期間 (年度) |
2018-04-01 – 2021-03-31
|
キーワード | 漢字字体 / デジタルアーカイブズ / データ保存 / データ利活用 / データベース再生 |
研究実績の概要 |
本年度は漢字字体規範史データセットの Git リポジトリ化を進め、自由な Git ホスティングシステムである GitLab を用い https://gitlab.hng-data.org/HNG/ を開設し、関連するツールやデータとともに Git リポジトリを公開した。また、Web サイトhttp://www.hng-data.org/ を開設し、情報公開体制を確立した。 また、2018年9月に北海道大学文学研究科において石塚漢字字体資料の紙カード等の保存状況を調査するとともに、北海道大学名誉教授石塚晴通氏へのインタビュー調査を行なった。 2018年7月21日にはシンポジウム「文字情報データベースの保存と継承」および漢字字体規範史データセット保存会設立総会を開催し、HNG のユーザーコミュニティに対し本プロジェクトについて広報するとともに他の研究者やユーザーと今後の保存体制について議論を行なった。また、2018年12月19日から21日にかけて台湾で開催された DADH2018 に参加し、中間成果の発表を行うとともに台湾・中国を中心とした海外の研究者への広報と意見交換を行った。 こうした議論や利用者の意見を踏まえ、停止前の HNG と似た UI を現代的な Web 技術によって提供する「HNG単字検索」https://search.hng-data.org/ を開発した。また、これに関連し、大字典データセットおよびその CHISE への取り込み作業を開始した。また、CHISE-wiki (EsT) に RDF/Turtle 形式での出力機能を追加し、HNG 関連データの RDF 対応を進めた。 また、IIIF を利用した全文画像の切り出し作業を行なった。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
HNGのバックアップデータの整理作業及びGitリポジトリ化に関しては、既にGitリポジトリ化済みの48資料に加え、妙法蓮華經卷六(P.2195)、金剛般若經(京都国立博物館本)、鴨脚本日本書紀巻二、東禅寺版写最上秘密那拏天経、春日版大般若経巻八十、守屋本薬師功徳経、阿毘達磨大毘婆沙論巻百七十の7資料をGitリポジトリに加え55資料を公開した。また、24資料に対し解題を追加した。また、複数の版の文字データを比較するための準備を行った。 また、北海道大学文学研究科で石塚漢字字体資料及び関連する紙の資料群の保存状態の現地調査を行い、一部の資料を京大人文研と国語研に移送し保存した。また、関係者への聞き取り調査も併せて行った。 Gitを利用した共同開発環境として GitLab を用い https://gitlab.hng-data.org/HNG/ を構築した。なお、GitHub 上でのミラー構築はまだ行っていない。 現代的な Web 技術の利用に関しては、「HNG単字検索」https://search.hng-data.org/ の開発が挙げられる。これはWebアプリケーションフレームワークを利用し、レスポンシブルwebデザインを実現しスマホやタブレット等でも快適に利用できる検索サービスを実現するとともに検索用 Web API の提供も可能としたものである。また、RDF化に関してはCHISE-wiki(EsT)でのコンテンツネゴシエーションを用いたRDF/Turtle出力等を行った。 全文画像の切り出しと整理に関しては、各字形に対する座標データや文字データの付与作業は順調に進んだが、代表字の選定等のHNGと同様なデータ化の問題がまだ解決しておらず整理作業及びHNG/CHISEとの統合作業が進んでいない。
|
今後の研究の推進方策 |
HNGのバックアップデータの整理作業に関しては、公開可能な残りの8資料のGit リポジトリ化を進めるとともに、複数の版の文字データの比較し、HNGの制作過程をGitのブランチやタグ等で追えるようなデータ化を進め、製作時の作業ミスを洗い出すとともに文字整理ポリシーの変遷等を追うことでポリシーの明確化を試みる。また、関係者への聞き取り調査等を通じて用語集を作成する。 また、HNG及び石塚漢字字体資料の整理に用いられた大字典および大字典データベースのデータセット化とそのCHISEへの統合および全文画像へのリンクを行い、HNGが想定する字種の情報の機械可読化を試みる。 全文画像から切り出した字形データの集合をHNGとリンク可能にするために機械的に代表字形を選定するとともに字体への分類を行わないアドホックな手法を試みるとともに、人手による字体の分類および代表字選定作業も試みる。また、このためのWebベースのツールの開発を試みる。
|
次年度使用額が生じた理由 |
全文画像の切り出しと整理に関して、各字形に対する座標データや文字データの付与作業は順調に進んだが、全文画像の切り出し作業に用いたシステムに石塚漢字字体資料及びHNGと同様な形に字形を整理するための仕組みが備わっていないことが判明したため、予定していた切り出し字形の整理作業を行うことができなかった。 このため、現在、切り出した字形の字体への分類と各字体の代表字の選定を行いHNG/CHISE とのデータ統合を実現するための仕様策定を進めており、2019年度の早い段階にワークフローの設計や環境の構築を行い、2019年度中に字形の整理作業を行う予定である。
|