日本近代公文書自動解読システムの構築

Research Project

Project/Area Number	23K20105
Project/Area Number (Other)	20H01304 (2020-2023)
Research Category	Grant-in-Aid for Scientific Research (B)
Allocation Type	Multi-year Fund (2024) Single-year Grants (2020-2023)
Section	一般
Review Section	Basic Section 03010:Historical studies in general-related
Research Institution	Chukyo University
Principal Investigator	山田雅之中京大学, 工学部, 教授 (90262948)
Co-Investigator(Kenkyū-buntansha)	目加田慶人中京大学, 工学部, 教授 (00282377) 寺沢憲吾公立はこだて未来大学, システム情報科学部, 准教授 (10435985) 鈴木哲造中京大学, 法学部, 講師 (10771123) 川嶋稔夫公立はこだて未来大学, システム情報科学部, 特命教授 (20152952) 長谷川純一中京大学, 人工知能高等研究所, 特任研究員 (30126891) 檜山幸夫中京大学, 社会科学研究所, 特任研究員 (40148242) 村井源公立はこだて未来大学, システム情報科学部, 教授 (70452018) 東山京子中京大学, 社会科学研究所, 研究員 (80570077)
Project Period (FY)	2020-04-01 – 2025-03-31
Project Status	Granted (Fiscal Year 2024)
Budget Amount *help	¥17,160,000 (Direct Cost: ¥13,200,000、Indirect Cost: ¥3,960,000) Fiscal Year 2024: ¥1,690,000 (Direct Cost: ¥1,300,000、Indirect Cost: ¥390,000) Fiscal Year 2023: ¥1,300,000 (Direct Cost: ¥1,000,000、Indirect Cost: ¥300,000) Fiscal Year 2022: ¥4,680,000 (Direct Cost: ¥3,600,000、Indirect Cost: ¥1,080,000) Fiscal Year 2021: ¥5,460,000 (Direct Cost: ¥4,200,000、Indirect Cost: ¥1,260,000) Fiscal Year 2020: ¥4,030,000 (Direct Cost: ¥3,100,000、Indirect Cost: ¥930,000)
Keywords	史料研究 / 近代公文書 / データセット開発 / 手書き文字認識システム / 手書き文書認識システム
Outline of Research at the Start	我々は、先の科研費研究課題（基盤研究（C））において、台湾総督府文書を題材に、約37万の手書き文字の基礎データを有するデータセットを開発した。さらに、高水準の手書き文書認識技術（精度85%）を開発した。これら成果を基盤として、本研究課題では認識精度95%を目指し、100万文字分まで基礎データを拡大し、字形・文脈情報に基づく文書認識技術を開発して、近代公文書自動解読システムを構築する。また、台湾4機関の協力を受け史学研究の観点から実用性を検証する。本研究の創造性は、近代公文書の大規模基礎データと最先端文書認識技術を開発するもので、その成果により、近代公文書の利用拡大が期待できる。
Outline of Annual Research Achievements	自動解読システムの核となるものは手書き文書認識技術である。これは字形情報と文脈情報を使って、注目している手書き文字の字種を推定する技術である。手書き文書認識技術の進歩は近年めざましいが、近代公文書は旧字体、略字、崩し字など様々な字体で書かれているため、自動解読は容易でない。本研究では深層学習を用いた文書認識技術を用いるが、これには近代公文書の文字特徴を網羅するデータセットを用意する必要がある。また、目標とする自動解読精度95%を達成するためには文書認識の新規技術の開発が必要である。本研究では、2022年度までに、4,548画像、約114万文字分のデータセットを開発した。2023年度は、さらに、約8万文字分のデータを追加するとともに、データ全体の点検・修正を行い、5,002画像、3,964字種、1,221,505文字分のデータセットを開発した。また、自動解読システム開発のための要素技術として、2022年度までに、精度93%の個別文字認識技術を開発するとともに、サンプル数の少ない字種の認識精度改善手法を検討した。また、文脈情報を利用する行画像認識技術の開発を進め、92%の認識精度を達成した。2023年度はさらに、学習データの追加と独自のデータ拡張手法を導入し、行画像認識精度を94.9%まで向上させた。2022年度に試作した対話型解読支援システムについて、2023年度の成果を適用してシステムを更新した。台湾研究機関の史学研究者らの協力のもと支援機能の評価実験を行い、その有用性を確認した。また、台湾総督府文書を題材にして計量文献学的手法による時間・空間特徴の分析、および、任意の近代公文書画像から自動で字形データを収集する手法の検討を行った。これらの成果について学術論文1編、国内学会発表4件により公表・報告を行った。
Current Status of Research Progress	Current Status of Research Progress 2: Research has progressed on the whole more than it was originally planned. Reason データセットについては目標の100万文字を超える122万文字分の基礎データを開発できた。認識精度についても目標の95%にほぼ到達している。一方で、開発したシステムの実利用性については台湾総督府文書のみでなく他の近代公文書を用いた評価が必要である。
Strategy for Future Research Activity	【研究組織会議・合同研究会】研究組織会議を開催し、研究計画・役割分担の確認と研究成果の報告を行う。また、研究協力者である台湾4機関所属の台湾人史学研究者らと合同研究会を開催し、その時点での研究成果について史学研究者の観点からの評価を受ける。また、開発したシステムを用いて、台湾総督府文書以外の近代公文書に対する認識実験を行い、システムの実利用性の向上および幅広い活用に関する課題の抽出を行う。【データセット開発】開発したデータセットには同じ文字の旧字体・新字体・異体字が混在する。文字認識精度評価の際は、これまで、これらは異なる字種として扱ってきたが、旧字体・新字体・異体字を区別しない場合の文字認識精度を評価するため、旧字体・新字体・異体字の対応関係を整理する。様々な近代公文書の解読においてシステムが利用可能かどうかを評価するため台湾総督府文書以外の近代公文書を題材にしてシステム精度評価用データセットを作成する。【文書認識技術の改良・システム構築】メンバーが開発してきた文字切り出し技術、データ増強手法、個別文字認識技術、文脈情報を用いた文書認識手法の精度改善方法を検討する。また、旧字体・新字体・異体字を区別しない場合の文字認識精度評価、台湾総督府文書以外の近代公文書に対する行認識精度評価を行う。さらに、画像中の全ての行を一括認識する手法を検討し、画像単位で自動解読する機能をシステムに導入する。【研究成果の公表】研究成果を国内外の関連学会で発表する。

Report

(4 results)

Research Products
(13 results)

All 2024 2023 2022 2021 2020 Other

All Journal Article (2 results) (of which Peer Reviewed: 2 results) Presentation (10 results) Remarks (1 results)

[Journal Article] Text Line Prediction and Character Segmentation from Line-by-Line Images Using Character Bounding Box Annotation of Histrical Document Dataset2024
- Author(s)
  山田雅之、目加田慶人、長谷川純一
- Journal Title
  
  情報処理学会論文誌
  
  Volume: 65 Issue: 3 Pages: 754-766
- DOI
  10.20729/00233259
- ISSN
  1882-7764
- Year and Date
  2024-03-15
- Related Report
  2023 Annual Research Report
- Peer Reviewed
[Journal Article] The Temporal and Spatial Characteristics of the Administrative Document Catalog of the Government-General of Taiwan2022
- Author(s)
  Hajime Murai, Toshio Kawashima
- Journal Title
  
  Journal of the Japanese Association for Digital Humanities
  
  Volume: 6 Issue: 1 Pages: 3-10
- DOI
  10.17928/jjadh.6.1_3
- ISSN
  2188-7276
- Year and Date
  2022-12-31
- Related Report
  2022 Annual Research Report
- Peer Reviewed
[Presentation] 手書き文字認識精度向上を目的とした能動的文字収集方法の検討2024
- Author(s)
  杉村香好, 道満恵介, 目加田慶人
- Organizer
  動的画像処理実利用化ワークショップ2024講演概要集，OS3-1，pp.372-377
- Related Report
  2023 Annual Research Report
[Presentation] 近代言語モデルを用いた近代公文書OCRの精度改善手法の提案2024
- Author(s)
  亀山京右，山田雅之，中　貴俊，兼松篤子，宮崎慎也，長谷川純一
- Organizer
  情報処理学会第86回全国大会, 7ZK-06
- Related Report
  2023 Annual Research Report
[Presentation] 日本近代公文書画像における文脈を考慮した文字検出手法2024
- Author(s)
  宮川裕貴，山田雅之，中貴俊，兼松篤子，宮崎慎也，長谷川純一,
- Organizer
  情報処理学会第86回全国大会, 7ZK-05
- Related Report
  2023 Annual Research Report
[Presentation] ページ単位文書画像に対する文字クラス・文字領域予測のための文脈情報を利用可能なモデルの提案2023
- Author(s)
  宮川裕貴，山田雅之, 中貴俊, 兼松篤子, 宮崎慎也, 長谷川純一
- Organizer
  第21回情報学ワークショップ（WiNF2023）, 2A-16
- Related Report
  2023 Annual Research Report
[Presentation] RoBERTaの近代文書への適用2022
- Author(s)
  亀山京右, 山田雅之, 中貴俊, 兼松篤子, 宮崎慎也, 長谷川純一
- Organizer
  第20回情報学ワークショップ（WiNF2022）
- Related Report
  2022 Annual Research Report
[Presentation] 文字認識精度に関する古典籍データセットと近代公文書データセットの比較2022
- Author(s)
  宮川裕貴，山田雅之, 中貴俊, 兼松篤子, 宮崎慎也, 長谷川純一
- Organizer
  第20回情報学ワークショップ（WiNF2022）
- Related Report
  2022 Annual Research Report
[Presentation] 日本近代公文書自動解読のためのデータセットと文字列認識手法の開発2021
- Author(s)
  田中隆, 山田雅之, 中貴俊, 兼松篤子, 宮崎慎也, 長谷川純一
- Organizer
  第19回情報学ワークショップ（WiNF2021）
- Related Report
  2021 Annual Research Report
[Presentation] 疑似石碑画像を用いた深層学習による石碑文字セグメンテーション2021
- Author(s)
  松原悠人, 山田雅之, 中貴俊, 兼松篤子, 宮崎慎也, 長谷川純一
- Organizer
  第19回情報学ワークショップ（WiNF2021）
- Related Report
  2021 Annual Research Report
[Presentation] Inscription Segmentation Using Synthetic Inscription Images for Text Detection at Stone Monuments2021
- Author(s)
  Naoto Morita, Ryunosuke Inoue, Masashi Yamada, Takatoshi Naka, Atsuko Kanematsu, Shinya Miyazaki, Junichi Hasegawa
- Organizer
  Document Analysis and Recognition ICDAR 2021 Workshops (CBDAR2021)
- Related Report
  2021 Annual Research Report
[Presentation] 深層学習を用いた石碑文字のセグメンテーション2020
- Author(s)
  守田直人, 井上隆之介, 山田雅之, 中貴俊, 兼松篤子, 宮崎慎也, 長谷川純一
- Organizer
  第18回情報学ワークショップ（WiNF2020）
- Related Report
  2020 Annual Research Report
[Remarks] 中京大学　戦略的研究について
- URL
  https://www.chukyo-u.ac.jp/research_2/advanced_research/strategy/b1.html#num3
- Related Report
  2022 Annual Research Report

日本近代公文書自動解読システムの構築

Principal Investigator

山田 雅之 中京大学, 工学部, 教授 (90262948)

¥17,160,000 (Direct Cost: ¥13,200,000、Indirect Cost: ¥3,960,000)

Current Status of Research Progress

Reason

Report

Research Products

[Journal Article] Text Line Prediction and Character Segmentation from Line-by-Line Images Using Character Bounding Box Annotation of Histrical Document Dataset2024

Author(s)

Journal Title

DOI

ISSN

Year and Date

Related Report

[Journal Article] The Temporal and Spatial Characteristics of the Administrative Document Catalog of the Government-General of Taiwan2022

Author(s)

Journal Title

DOI

ISSN

Year and Date

Related Report

[Presentation] 手書き文字認識精度向上を目的とした能動的文字収集方法の検討2024

Author(s)

Organizer

Related Report

[Presentation] 近代言語モデルを用いた近代公文書OCRの精度改善手法の提案2024

Author(s)

Organizer

Related Report

[Presentation] 日本近代公文書画像における文脈を考慮した文字検出手法2024

Author(s)

Organizer

Related Report

[Presentation] ページ単位文書画像に対する文字クラス・文字領域予測のための文脈情報を利用可能なモデルの提案2023

Author(s)

Organizer

Related Report

[Presentation] RoBERTaの近代文書への適用2022

Author(s)

Organizer

Related Report

[Presentation] 文字認識精度に関する古典籍データセットと近代公文書データセットの比較2022

Author(s)

Organizer

Related Report

[Presentation] 日本近代公文書自動解読のためのデータセットと文字列認識手法の開発2021

Author(s)

Organizer

Related Report

[Presentation] 疑似石碑画像を用いた深層学習による石碑文字セグメンテーション2021

Author(s)

Organizer

Related Report

[Presentation] Inscription Segmentation Using Synthetic Inscription Images for Text Detection at Stone Monuments2021

Author(s)

Organizer

Related Report

[Presentation] 深層学習を用いた石碑文字のセグメンテーション2020

Author(s)

Organizer

Related Report

[Remarks] 中京大学 戦略的研究について

URL

Related Report

山田雅之中京大学, 工学部, 教授 (90262948)

[Remarks] 中京大学　戦略的研究について