• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 前のページに戻る

日本近代公文書自動解読システムの構築

研究課題

研究課題/領域番号 23K20105
補助金の研究課題番号 20H01304 (2020-2023)
研究種目

基盤研究(B)

配分区分基金 (2024)
補助金 (2020-2023)
応募区分一般
審査区分 小区分03010:史学一般関連
研究機関中京大学

研究代表者

山田 雅之  中京大学, 工学部, 教授 (90262948)

研究分担者 目加田 慶人  中京大学, 工学部, 教授 (00282377)
寺沢 憲吾  公立はこだて未来大学, システム情報科学部, 准教授 (10435985)
鈴木 哲造  中京大学, 法学部, 講師 (10771123)
川嶋 稔夫  公立はこだて未来大学, システム情報科学部, 特命教授 (20152952)
長谷川 純一  中京大学, 人工知能高等研究所, 特任研究員 (30126891)
檜山 幸夫  中京大学, 社会科学研究所, 特任研究員 (40148242)
村井 源  公立はこだて未来大学, システム情報科学部, 教授 (70452018)
東山 京子  中京大学, 社会科学研究所, 研究員 (80570077)
研究期間 (年度) 2020-04-01 – 2025-03-31
研究課題ステータス 交付 (2024年度)
配分額 *注記
17,160千円 (直接経費: 13,200千円、間接経費: 3,960千円)
2024年度: 1,690千円 (直接経費: 1,300千円、間接経費: 390千円)
2023年度: 1,300千円 (直接経費: 1,000千円、間接経費: 300千円)
2022年度: 4,680千円 (直接経費: 3,600千円、間接経費: 1,080千円)
2021年度: 5,460千円 (直接経費: 4,200千円、間接経費: 1,260千円)
2020年度: 4,030千円 (直接経費: 3,100千円、間接経費: 930千円)
キーワード史料研究 / 近代公文書 / データセット開発 / 手書き文字認識システム / 手書き文書認識システム
研究開始時の研究の概要

我々は、先の科研費研究課題(基盤研究(C))において、台湾総督府文書を題材に、約37万の手書き文字の基礎データを有するデータセットを開発した。さらに、高水準の手書き文書認識技術(精度85%)を開発した。これら成果を基盤として、本研究課題では認識精度95%を目指し、100万文字分まで基礎データを拡大し、字形・文脈情報に基づく文書認識技術を開発して、近代公文書自動解読システムを構築する。
また、台湾4機関の協力を受け史学研究の観点から実用性を検証する。本研究の創造性は、近代公文書の大規模基礎データと最先端文書認識技術を開発するもので、その成果により、近代公文書の利用拡大が期待できる。

研究実績の概要

自動解読システムの核となるものは手書き文書認識技術である。これは字形情報と文脈情報を使って、注目している手書き文字の字種を推定する技術である。手書き文書認識技術の進歩は近年めざましいが、近代公文書は旧字体、略字、崩し字など様々な字体で書かれているため、自動解読は容易でない。本研究では深層学習を用いた文書認識技術を用いるが、これには近代公文書の文字特徴を網羅するデータセットを用意する必要がある。また、目標とする自動解読精度95%を達成するためには文書認識の新規技術の開発が必要である。
本研究では、2022年度までに、4,548画像、約114万文字分のデータセットを開発した。2023年度は、さらに、約8万文字分のデータを追加するとともに、データ全体の点検・修正を行い、5,002画像、3,964字種、1,221,505文字分のデータセットを開発した。また、自動解読システム開発のための要素技術として、2022年度までに、精度93%の個別文字認識技術を開発するとともに、サンプル数の少ない字種の認識精度改善手法を検討した。また、文脈情報を利用する行画像認識技術の開発を進め、92%の認識精度を達成した。2023年度はさらに、学習データの追加と独自のデータ拡張手法を導入し、行画像認識精度を94.9%まで向上させた。2022年度に試作した対話型解読支援システムについて、2023年度の成果を適用してシステムを更新した。台湾研究機関の史学研究者らの協力のもと支援機能の評価実験を行い、その有用性を確認した。また、台湾総督府文書を題材にして計量文献学的手法による時間・空間特徴の分析、および、任意の近代公文書画像から自動で字形データを収集する手法の検討を行った。
これらの成果について学術論文1編、国内学会発表4件により公表・報告を行った。

現在までの達成度 (区分)
現在までの達成度 (区分)

2: おおむね順調に進展している

理由

データセットについては目標の100万文字を超える122万文字分の基礎データを開発できた。認識精度についても目標の95%にほぼ到達している。一方で、開発したシステムの実利用性については台湾総督府文書のみでなく他の近代公文書を用いた評価が必要である。

今後の研究の推進方策

【研究組織会議・合同研究会】研究組織会議を開催し、研究計画・役割分担の確認と研究成果の報告を行う。また、研究協力者である台湾4機関所属の台湾人史学研究者らと合同研究会を開催し、その時点での研究成果について史学研究者の観点からの評価を受ける。また、開発したシステムを用いて、台湾総督府文書以外の近代公文書に対する認識実験を行い、システムの実利用性の向上および幅広い活用に関する課題の抽出を行う。
【データセット開発】開発したデータセットには同じ文字の旧字体・新字体・異体字が混在する。文字認識精度評価の際は、これまで、これらは異なる字種として扱ってきたが、旧字体・新字体・異体字を区別しない場合の文字認識精度を評価するため、旧字体・新字体・異体字の対応関係を整理する。様々な近代公文書の解読においてシステムが利用可能かどうかを評価するため台湾総督府文書以外の近代公文書を題材にしてシステム精度評価用データセットを作成する。
【文書認識技術の改良・システム構築】メンバーが開発してきた文字切り出し技術、データ増強手法、個別文字認識技術、文脈情報を用いた文書認識手法の精度改善方法を検討する。また、旧字体・新字体・異体字を区別しない場合の文字認識精度評価、台湾総督府文書以外の近代公文書に対する行認識精度評価を行う。さらに、画像中の全ての行を一括認識する手法を検討し、画像単位で自動解読する機能をシステムに導入する。
【研究成果の公表】研究成果を国内外の関連学会で発表する。

報告書

(4件)
  • 2023 実績報告書
  • 2022 実績報告書
  • 2021 実績報告書
  • 2020 実績報告書
  • 研究成果

    (13件)

すべて 2024 2023 2022 2021 2020 その他

すべて 雑誌論文 (2件) (うち査読あり 2件) 学会発表 (10件) 備考 (1件)

  • [雑誌論文] 歴史的文書データセットの文字矩形情報を用いた行単位画像からの文字列予測と文字セグメンテーション2024

    • 著者名/発表者名
      山田 雅之、目加田 慶人、長谷川 純一
    • 雑誌名

      情報処理学会論文誌

      巻: 65 号: 3 ページ: 754-766

    • DOI

      10.20729/00233259

    • ISSN
      1882-7764
    • 年月日
      2024-03-15
    • 関連する報告書
      2023 実績報告書
    • 査読あり
  • [雑誌論文] The Temporal and Spatial Characteristics of the Administrative Document Catalog of the Government-General of Taiwan2022

    • 著者名/発表者名
      Hajime Murai, Toshio Kawashima
    • 雑誌名

      Journal of the Japanese Association for Digital Humanities

      巻: 6 号: 1 ページ: 3-10

    • DOI

      10.17928/jjadh.6.1_3

    • ISSN
      2188-7276
    • 年月日
      2022-12-31
    • 関連する報告書
      2022 実績報告書
    • 査読あり
  • [学会発表] 手書き文字認識精度向上を目的とした能動的文字収集方法の検討2024

    • 著者名/発表者名
      杉村 香好, 道満 恵介, 目加田 慶人
    • 学会等名
      動的画像処理実利用化ワークショップ2024講演概要集,OS3-1,pp.372-377
    • 関連する報告書
      2023 実績報告書
  • [学会発表] 近代言語モデルを用いた近代公文書OCRの精度改善手法の提案2024

    • 著者名/発表者名
      亀山 京右,山田 雅之,中 貴俊,兼松 篤子,宮崎 慎也,長谷川 純一
    • 学会等名
      情報処理学会第86回全国大会, 7ZK-06
    • 関連する報告書
      2023 実績報告書
  • [学会発表] 日本近代公文書画像における文脈を考慮した文字検出手法2024

    • 著者名/発表者名
      宮川 裕貴,山田 雅之,中 貴俊,兼松 篤子,宮崎 慎也,長谷川 純一,
    • 学会等名
      情報処理学会第86回全国大会, 7ZK-05
    • 関連する報告書
      2023 実績報告書
  • [学会発表] ページ単位文書画像に対する文字クラス・文字領域予測のための文脈情報を利用可能なモデルの提案2023

    • 著者名/発表者名
      宮川 裕貴,山田 雅之, 中 貴俊, 兼松 篤子, 宮崎 慎也, 長谷川 純一
    • 学会等名
      第21回情報学ワークショップ(WiNF2023), 2A-16
    • 関連する報告書
      2023 実績報告書
  • [学会発表] RoBERTaの近代文書への適用2022

    • 著者名/発表者名
      亀山 京右, 山田 雅之, 中 貴俊, 兼松 篤子, 宮崎 慎也, 長谷川 純一
    • 学会等名
      第20回情報学ワークショップ(WiNF2022)
    • 関連する報告書
      2022 実績報告書
  • [学会発表] 文字認識精度に関する古典籍データセットと近代公文書データセットの比較2022

    • 著者名/発表者名
      宮川 裕貴,山田 雅之, 中 貴俊, 兼松 篤子, 宮崎 慎也, 長谷川 純一
    • 学会等名
      第20回情報学ワークショップ(WiNF2022)
    • 関連する報告書
      2022 実績報告書
  • [学会発表] 日本近代公文書自動解読のためのデータセットと文字列認識手法の開発2021

    • 著者名/発表者名
      田中隆, 山田雅之, 中貴俊, 兼松篤子, 宮崎慎也, 長谷川純一
    • 学会等名
      第19回情報学ワークショップ(WiNF2021)
    • 関連する報告書
      2021 実績報告書
  • [学会発表] 疑似石碑画像を用いた深層学習による石碑文字セグメンテーション2021

    • 著者名/発表者名
      松原悠人, 山田雅之, 中貴俊, 兼松篤子, 宮崎慎也, 長谷川純一
    • 学会等名
      第19回情報学ワークショップ(WiNF2021)
    • 関連する報告書
      2021 実績報告書
  • [学会発表] Inscription Segmentation Using Synthetic Inscription Images for Text Detection at Stone Monuments2021

    • 著者名/発表者名
      Naoto Morita, Ryunosuke Inoue, Masashi Yamada, Takatoshi Naka, Atsuko Kanematsu, Shinya Miyazaki, Junichi Hasegawa
    • 学会等名
      Document Analysis and Recognition ICDAR 2021 Workshops (CBDAR2021)
    • 関連する報告書
      2021 実績報告書
  • [学会発表] 深層学習を用いた石碑文字のセグメンテーション2020

    • 著者名/発表者名
      守田直人, 井上隆之介, 山田雅之, 中貴俊, 兼松篤子, 宮崎慎也, 長谷川純一
    • 学会等名
      第18回情報学ワークショップ(WiNF2020)
    • 関連する報告書
      2020 実績報告書
  • [備考] 中京大学 戦略的研究について

    • URL

      https://www.chukyo-u.ac.jp/research_2/advanced_research/strategy/b1.html#num3

    • 関連する報告書
      2022 実績報告書

URL: 

公開日: 2020-04-28   更新日: 2024-12-25  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi