視覚および言語情報の統合による江戸期公文書の御家流くずし字翻刻支援システムの構築

研究課題

研究課題/領域番号	22K18149
研究種目	若手研究
配分区分	基金
審査区分	小区分90020:図書館情報学および人文社会情報学関連
研究機関	大阪大学 (2023) 佐賀大学 (2022)
研究代表者	吉賀夏子大阪大学, 大学院人文学研究科(人文学林), 准教授 (70457498)
研究期間 (年度)	2022-04-01 – 2025-03-31
研究課題ステータス	交付 (2023年度)
配分額 *注記	4,550千円 (直接経費: 3,500千円、間接経費: 1,050千円) 2024年度: 650千円 (直接経費: 500千円、間接経費: 150千円) 2023年度: 1,560千円 (直接経費: 1,200千円、間接経費: 360千円) 2022年度: 2,340千円 (直接経費: 1,800千円、間接経費: 540千円)
キーワード	くずし字 / マルチモーダル学習 / AI-OCR / オープンデータ / 共創知 / 市民科学 / 御家流くずし字データセット / 翻刻支援システム / 固有表現データセット
研究開始時の研究の概要	全国には江戸期に作成された手書きの公文書があり、これらは当時の行政や経済を読み解く上で重要な史料である。大量の公文書の内容を把握するには、当時の標準的な字体である御家流くずし字を読めるようになり、当時の社会システムを理解する必要がある。本研究では漢字の多い御家流くずし字の読解を支援するため、大量のくずし字画像データセットを用いた視覚的な画像認識システムを構築する。さらに、これまでに得た翻刻文と固有表現データを用いて言語学的なアプローチからも画像認識を支援する仕組みを作る。
研究実績の概要	今年度は、開発したウェブサイト上で作業する人員の確保するにあたり、くずし字を少しでも読める人の確保は一組織であると難しいためオンラインで参加者を募集することを検討したが、研究代表者自体も組織を異動しその手続きが数ヶ月間困難となったり、作業者個人の都合による作業遅延などもあり、研究の手続自体で遅延が起きた。そこで、今年度はくずし字のアノテーションをオープンデータ化するにあたり、くずし字専門家に自動翻刻重要性を周知するための活動を国内外で重点的に行い、専門家に比較的近い学生に対しても本研究を含むくずし字翻刻についての教育を行った。一連の活動は、次年度以降の正解アノテーションデータ収集の進捗を支援することを視野に入れている。基本的に、AIモデルを作成するには通常多くの正解データが必要である。しかしながら、現実には地域資料から多くの正解データを収集することは困難である。また、無償による翻刻活動から取得したデータを正解データとして運用することも疑問が残る。そのため、正解データの質にこだわらず、専門家ではないがくずし字学習に興味がある学生による翻刻テキストを利用したアノテーションデータ作成およびfew-shot系を中心とした手法を再調査し、あらかじめ翻刻されたテキストをうまく活用した自動翻刻システムを再検討している。また、取得した正解データを周辺情報とともに検索できるデータベースを作成し、文脈により文字種判定を可能とするシステムを検討している。
現在までの達成度 (区分)	現在までの達成度 (区分) 3: やや遅れている理由本研究では、御家流と呼ばれる江戸期の公的な文書などに使用する書体で書かれた日記(業務文書)の翻刻を支援するシステムを開発する。システムの開発には、kuzushiji.workというくずし字データを参加者で作成するサイトを設置し、前年度に引き続き御家流くずし字データを収集中である。しかしながら、研究代表者の異動で研究環境が大きく変化したことにより、くずし字データを正解データとして確定できる専門人員を確保することが非常に難しいこと、長期にわたり正解データを抽出する過程で作業者の都合による作業中断もあり、データ収集が進んでいない。そのため、今年度は、既存の翻刻支援システムを改良しながら、正解データを増やせる環境及びそのデータの公開を別のサイトとして構築する。さらに、これまで集めた少量のくずし字データと翻刻データを組み合わせて、専門家に期待していた正解データを自動で抽出する手法を開発する方針に若干転換した。現在は、基本データをWebから収集し、few shotで可能な手法を検討中である。
今後の研究の推進方策	開発したウェブサイト上で作業する人員の確保するにあたり、くずし字を少しでも読める人の確保は一組織であると難しいためオンラインで参加者を募りたいが、研究代表者自体も組織を異動したこともあり、研究の手続自体で遅延が起きている。基本的に、AIモデルを作成するには通常多くの正解データが必要であるが、few-shot系を中心としたデータの水増し手法(augmentation)などの工夫を導入したい。また、取得した正解データを検索できるシステムを作成し、作業の進捗をオープンにしながらより詳しい情報を得られることが可能なウェブサイトを別途構築する。最終的には、くずし字認識性能を高めるため、御家流くずし字画像、翻刻済みテキスト、固有表現ラベルつきデータセットを組み合わせてマルチモーダル学習モデルを構築する予定である。

報告書

(2件)

2023 実施状況報告書
2022 実施状況報告書

研究成果
(8件)

すべて 2024 2023 2022 その他

すべて雑誌論文 (2件) (うちオープンアクセス 2件) 学会発表 (4件) (うち国際学会 1件、招待講演 2件) 備考 (2件)

[雑誌論文] シチズン・サイエンスと機械学習による歴史資料の内容理解支援2023
- 著者名/発表者名
  吉賀夏子
- 雑誌名
  
  情報の科学と技術
  
  巻: 73 号: 11 ページ: 500-506
- DOI
  10.18919/jkg.73.11_500
- ISSN
  0913-3801, 2189-8278
- 年月日
  2023-11-01
- 関連する報告書
  2023 実施状況報告書
- オープンアクセス
[雑誌論文] [A4] 地域に散在する江戸期古記録の時系列提示による情報補完を目指したデータベースの構築2022
- 著者名/発表者名
  吉賀夏子、伊藤昭弘
- 雑誌名
  
  デジタルアーカイブ学会誌
  
  巻: 6 号: s3 ページ: s131-s134
- DOI
  10.24506/jsda.6.s3_s131
- ISSN
  2432-9762, 2432-9770
- 関連する報告書
  2022 実施状況報告書
- オープンアクセス
[学会発表] デジタルヒューマニティーズの可能性江戸期の佐賀地域に散在する歴史資料からの情報基盤構築2024
- 著者名/発表者名
  吉賀夏子
- 学会等名
  人文学林シンポジウム
- 関連する報告書
  2023 実施状況報告書
- 招待講演
[学会発表] Harnessing Machine Learning and Citizen Participation for Transcribing Local Historical Business Records2023
- 著者名/発表者名
  Natsuko Yoshiga
- 学会等名
  The 3rd International conference of Art, Craft, Culture and Design
- 関連する報告書
  2023 実施状況報告書
- 国際学会
[学会発表] 佐賀地域に散在する歴史資料のデータ化と利用支援2023
- 著者名/発表者名
  吉賀夏子
- 学会等名
  DHSympo 2023 デジタルヒューマニティーズと研究基盤
- 関連する報告書
  2023 実施状況報告書
- 招待講演
[学会発表] 多様なくずし字画像に対応するアノテーションデータセット収集システムの試作2023
- 著者名/発表者名
  吉賀夏子、橋本雄太
- 学会等名
  研究報告人文科学とコンピュータ（CH）
- 関連する報告書
  2022 実施状況報告書
[備考] kuzushiji.work 機械学習用くずし字データ収集プロジェクト
- URL
  https://kuzushiji.work/
- 関連する報告書
  2023 実施状況報告書
[備考] https://kuzushiji.work/
- 関連する報告書
  2022 実施状況報告書

視覚および言語情報の統合による江戸期公文書の御家流くずし字翻刻支援システムの構築

研究代表者

吉賀 夏子 大阪大学, 大学院人文学研究科(人文学林), 准教授 (70457498)

4,550千円 (直接経費: 3,500千円、間接経費: 1,050千円)

現在までの達成度 (区分)

理由

報告書

研究成果

[雑誌論文] シチズン・サイエンスと機械学習による歴史資料の内容理解支援2023

著者名/発表者名

雑誌名

DOI

ISSN

年月日

関連する報告書

[雑誌論文] [A4] 地域に散在する江戸期古記録の時系列提示による情報補完を目指したデータベースの構築2022

著者名/発表者名

雑誌名

DOI

ISSN

関連する報告書

[学会発表] デジタルヒューマニティーズの可能性江戸期の佐賀地域に散在する歴史資料からの情報基盤構築2024

著者名/発表者名

学会等名

関連する報告書

[学会発表] Harnessing Machine Learning and Citizen Participation for Transcribing Local Historical Business Records2023

著者名/発表者名

学会等名

関連する報告書

[学会発表] 佐賀地域に散在する歴史資料のデータ化と利用支援2023

著者名/発表者名

学会等名

関連する報告書

[学会発表] 多様なくずし字画像に対応するアノテーションデータセット収集システムの試作2023

著者名/発表者名

学会等名

関連する報告書

[備考] kuzushiji.work 機械学習用くずし字データ収集プロジェクト

URL

関連する報告書

[備考] https://kuzushiji.work/

関連する報告書

吉賀夏子大阪大学, 大学院人文学研究科(人文学林), 准教授 (70457498)