• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2023 Fiscal Year Research-status Report

Development of a Support System for the Reprinting of Oieryu Kuzushiji (Edo Period Official Handwriting) Documents by Integrating Visual and Linguistic Information

Research Project

Project/Area Number 22K18149
Research InstitutionOsaka University

Principal Investigator

吉賀 夏子  大阪大学, 大学院人文学研究科(人文学林), 准教授 (70457498)

Project Period (FY) 2022-04-01 – 2025-03-31
Keywordsくずし字 / マルチモーダル学習 / AI-OCR / オープンデータ / 共創知 / 市民科学
Outline of Annual Research Achievements

今年度は、開発したウェブサイト上で作業する人員の確保するにあたり、くずし字を少しでも読める人の確保は一組織であると難しいためオンラインで参加者を募集することを検討したが、研究代表者自体も組織を異動しその手続きが数ヶ月間困難となったり、作業者個人の都合による作業遅延などもあり、研究の手続自体で遅延が起きた。
そこで、今年度はくずし字のアノテーションをオープンデータ化するにあたり、くずし字専門家に自動翻刻重要性を周知するための活動を国内外で重点的に行い、専門家に比較的近い学生に対しても本研究を含むくずし字翻刻についての教育を行った。一連の活動は、次年度以降の正解アノテーションデータ収集の進捗を支援することを視野に入れている。
基本的に、AIモデルを作成するには通常多くの正解データが必要である。しかしながら、現実には地域資料から多くの正解データを収集することは困難である。また、無償による翻刻活動から取得したデータを正解データとして運用することも疑問が残る。そのため、正解データの質にこだわらず、専門家ではないがくずし字学習に興味がある学生による翻刻テキストを利用したアノテーションデータ作成およびfew-shot系を中心とした手法を再調査し、あらかじめ翻刻されたテキストをうまく活用した自動翻刻システムを再検討している。 また、取得した正解データを周辺情報とともに検索できるデータベースを作成し、文脈により文字種判定を可能とするシステムを検討している。

Current Status of Research Progress
Current Status of Research Progress

3: Progress in research has been slightly delayed.

Reason

本研究では、御家流と呼ばれる江戸期の公的な文書などに使用する書体で書かれた日記(業務文書)の翻刻を支援するシステムを開発する。システムの開発には、kuzushiji.workというくずし字データを参加者で作成するサイトを設置し、前年度に引き続き御家流くずし字データを収集中である。
しかしながら、研究代表者の異動で研究環境が大きく変化したことにより、くずし字データを正解データとして確定できる専門人員を確保することが非常に難しいこと、長期にわたり正解データを抽出する過程で作業者の都合による作業中断もあり、データ収集が進んでいない。
そのため、今年度は、既存の翻刻支援システムを改良しながら、正解データを増やせる環境及びそのデータの公開を別のサイトとして構築する。さらに、これまで集めた少量のくずし字データと翻刻データを組み合わせて、専門家に期待していた正解データを自動で抽出する手法を開発する方針に若干転換した。現在は、基本データをWebから収集し、few shotで可能な手法を検討中である。

Strategy for Future Research Activity

開発したウェブサイト上で作業する人員の確保するにあたり、くずし字を少しでも読める人の確保は一組織であると難しいためオンラインで参加者を募りたいが、研究代表者自体も組織を異動したこともあり、研究の手続自体で遅延が起きている。
基本的に、AIモデルを作成するには通常多くの正解データが必要であるが、few-shot系を中心としたデータの水増し手法(augmentation)などの工夫を導入したい。 また、取得した正解データを検索できるシステムを作成し、作業の進捗をオープンにしながらより詳しい情報を得られることが可能なウェブサイトを別途構築する。
最終的には、くずし字認識性能を高めるため、御家流くずし字画像、翻刻済みテキスト、固有表現ラベルつきデータセットを組み合わせてマルチモーダル学習モデルを構築する予定である。

Causes of Carryover

前年度に正解データ作成人員不足と作業遅延があり、人件費がほとんど使用できなかったため。
次年度に学生等を雇用すること、自動翻刻システムプロトタイプ開発に使用する予定である。

  • Research Products

    (5 results)

All 2024 2023 Other

All Journal Article (1 results) (of which Open Access: 1 results) Presentation (3 results) (of which Int'l Joint Research: 1 results,  Invited: 2 results) Remarks (1 results)

  • [Journal Article] シチズン・サイエンスと機械学習による歴史資料の内容理解支援2023

    • Author(s)
      吉賀 夏子
    • Journal Title

      情報の科学と技術

      Volume: 73 Pages: 500~506

    • DOI

      10.18919/jkg.73.11_500

    • Open Access
  • [Presentation] デジタルヒューマニティーズの可能性江戸期の佐賀地域に散在する歴史資料からの情報基盤構築2024

    • Author(s)
      吉賀夏子
    • Organizer
      人文学林 シンポジウム
    • Invited
  • [Presentation] Harnessing Machine Learning and Citizen Participation for Transcribing Local Historical Business Records2023

    • Author(s)
      Natsuko Yoshiga
    • Organizer
      The 3rd International conference of Art, Craft, Culture and Design
    • Int'l Joint Research
  • [Presentation] 佐賀地域に散在する歴史資料のデータ化と利用支援2023

    • Author(s)
      吉賀夏子
    • Organizer
      DHSympo 2023 デジタルヒューマニティーズと研究基盤
    • Invited
  • [Remarks] kuzushiji.work 機械学習用くずし字データ収集プロジェクト

    • URL

      https://kuzushiji.work/

URL: 

Published: 2024-12-25  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi