• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 前のページに戻る

学術的漢字データセットの長期維持のための技術開発

研究課題

研究課題/領域番号 23K17500
研究種目

挑戦的研究(萌芽)

配分区分基金
審査区分 中区分2:文学、言語学およびその関連分野
研究機関国文学研究資料館

研究代表者

守岡 知彦  国文学研究資料館, 研究部, 特任准教授 (40324701)

研究分担者 永崎 研宣  一般財団法人人文情報学研究所, 人文情報学研究部門, 主席研究員 (30343429)
高田 智和  大学共同利用機関法人人間文化研究機構国立国語研究所, 研究系, 教授 (90415612)
池田 証壽  北海道大学, 文学研究院, 名誉教授 (20176093)
研究期間 (年度) 2023-06-30 – 2026-03-31
研究課題ステータス 交付 (2023年度)
配分額 *注記
6,240千円 (直接経費: 4,800千円、間接経費: 1,440千円)
2025年度: 1,820千円 (直接経費: 1,400千円、間接経費: 420千円)
2024年度: 2,340千円 (直接経費: 1,800千円、間接経費: 540千円)
2023年度: 2,080千円 (直接経費: 1,600千円、間接経費: 480千円)
キーワード漢字字体 / 古辞書 / 文字オントロジー / データセット保存 / 分権的Web技術 / 分権的 Web 技術
研究開始時の研究の概要

漢字研究にとって重要なデータベースである「漢字字体規範史データセット」(HNG), 「平安時代漢字字書総合データベース」(HDIC), CHISE を中心に漢字関連データセットの長期維持のための研究を行う。HNG/HDICは開発を主導した研究者が退職しているため、現在のWeb技術の制約もあり、その長期維持には課題を抱えているといえる。このため、IPFS等の内容IDベースの次世代Web技術の適用可能性について検討する。また、データセットの維持に加えその利用可能性の向上のためのデータセット間の統合のための研究や HNG/HDICの統合基盤となっているCHISEの次世代基盤の開発も行う。

研究実績の概要

CHISE/HNG/HDICの実用的なIPFS化のための研究を行い、その第一歩として「IPFS版 CHISE IDS漢字検索」( https://www.chise.org/ipfs/QmZAoK5iZLs9FRqc6FvojkJRu2PbWukrrzVoEyBBrVoNBB/index.ja.html ) の実装を行い、その成果をじんもんこん2023で発表した。また、CHISE全体のIPFS化についての検討を行い、その成果に関して「東洋学へのコンピュータ利用第37回研究セミナー」で報告を行なった。またサーバー構築のための準備作業を行なった。
HDICの古辞書データとCHISE文字オントロジーの連携・統合に関しては、字体記述と注文データに分けて研究を行っている。字体記述に関しては、甲骨文字や小篆、隷変以降の歴史的な楷書等の歴史的漢字字体と現代の漢字字体を対象にした複数の包摂粒度を許容する漢字構造記述を行うための手法についてのこれまでの研究を圏論に基づいて整理するための研究を行い論文にまとめた。この論文「通時的な多粒度漢字構造情報記述の試み」は情報処理学会論文誌Vol.65 No.2に掲載された。なお、本論文は高い評価を受け同論文誌ジャーナルVol.65 No.2の特選論文として選定された。古辞書の注文データの構造化やCHISE文字オントロジーとの連携に関しても研究を進めており、その成果を「JSON-LDを用いた古字書注文構造化の試み」(情報処理学会研究報告 2023-CH-133)として発表した。また、これまでの古辞書研究に関する成果を「日本辞書史研究―草創と形成」(池田証寿著、汲古書院)として出版した。
一方、2024年1月19日に国立国語研究所において「東洋学へのコンピュータ利用第37回研究セミナー」および「漢字字体規範史データセット保存会第5回総会」を開催し、6件の研究報告と、2023年度のHNG保存会の活動報告を行うとともに、ユーザーコミュニティーと意見の交換を行なった。

現在までの達成度 (区分)
現在までの達成度 (区分)

2: おおむね順調に進展している

理由

IPFSを用いたデータセット公開における問題点の洗い出しや、その実用化に向けての課題の整理作業は順調に進んでおり、実用的なアプリケーションのプロトタイプとして「IPFS版CHISE IDS漢字検索」も実現できた。
HDICの注文データの構造化についても研究を進めており、自動解析やJSON-LD化について検討を進めている。
また、現代と歴史的な漢字字体を統合的に扱うためのモデルに関する研究も進んでいる。
ユーザーコミュニティの構築・連携強化に関しては、「漢字字体規範史データセット保存会第5回総会」を開催し、現状の報告を行うとともにユーザーコミュニティーと意見の交換を行なった。
その一方で、当初計画していた国文研におけるサーバーの構築に関してはその準備作業はできたものの諸事情から外部公開可能なサーバーはまだ実現できていない。また、従来型Web技術に基づくシステムの近代化作業も遅れている。

今後の研究の推進方策

IPFSを用いたデータセット公開やWebサービス構築に関する研究を進めるとともに、京大人文研に加え国文研にもゲートウェイサーバーを構築し、複数拠点化の試みを行う。
また、データセットの利活用性の向上のために、歴史的な漢字字体や古辞書の注文データに関するデータモデルや構造化やデータ形式に関する研究を進め、CHISE/HNG/HDICの連携を進めるとともに、新たな資料の取り込みに関しても検討を進める。
また、進捗が遅れている従来型Web技術に基づくシステムの近代化作業に関して、Common Lispを用いてCHISEのバックエンドシステムの再実装を行うとともに、UIの再構築に関して新たな研究分担者を追加し、JavaScript/TypeScriptベースのフロントエンドシステムに関して検討を行い、現在の環境で利用しやすい現代的なWeb サービスの実現を目指す。

報告書

(1件)
  • 2023 実施状況報告書
  • 研究成果

    (7件)

すべて 2024 2023

すべて 雑誌論文 (2件) (うち査読あり 2件) 学会発表 (3件) (うち招待講演 2件) 図書 (2件)

  • [雑誌論文] 通時的な多粒度漢字構造情報記述の試み2024

    • 著者名/発表者名
      守岡 知彦
    • 雑誌名

      情報処理学会論文誌

      巻: 65(2) ページ: 340-347

    • 関連する報告書
      2023 実施状況報告書
    • 査読あり
  • [雑誌論文] 漢字構造検索機能の IPFS 化の試み2023

    • 著者名/発表者名
      守岡 知彦
    • 雑誌名

      じんもんこん2023論文集

      巻: 2023 ページ: 161-168

    • 関連する報告書
      2023 実施状況報告書
    • 査読あり
  • [学会発表] 東洋学へのコンピュータ利用 第36回研究セミナー2024

    • 著者名/発表者名
      守岡 知彦
    • 学会等名
      東洋学へのコンピュータ利用 第37回研究セミナー
    • 関連する報告書
      2023 実施状況報告書
    • 招待講演
  • [学会発表] JSON-LDを用いた古字書注文構造化の試み2023

    • 著者名/発表者名
      守岡 知彦
    • 学会等名
      情報処理学会 人文科学とコンピュータ研究会
    • 関連する報告書
      2023 実施状況報告書
  • [学会発表] 文字オントロジーにおけるマークアップに関する試論2023

    • 著者名/発表者名
      守岡 知彦
    • 学会等名
      東洋学へのコンピュータ利用 第36回研究セミナー
    • 関連する報告書
      2023 実施状況報告書
    • 招待講演
  • [図書] 日本辞書史研究―草創と形成2024

    • 著者名/発表者名
      池田証寿
    • 総ページ数
      588
    • 出版者
      汲古書院
    • ISBN
      9784762936869
    • 関連する報告書
      2023 実施状況報告書
  • [図書] Handbook of Historical Japanese Linguistics2024

    • 著者名/発表者名
      Bjarke Frellesvig and Satoshi Kinsui (ed.)
    • 総ページ数
      600
    • 出版者
      De Gruyter Mouton
    • 関連する報告書
      2023 実施状況報告書

URL: 

公開日: 2023-07-04   更新日: 2024-12-25  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi