研究課題/領域番号 |
22K18149
|
研究種目 |
若手研究
|
配分区分 | 基金 |
審査区分 |
小区分90020:図書館情報学および人文社会情報学関連
|
研究機関 | 佐賀大学 |
研究代表者 |
吉賀 夏子 佐賀大学, 地域学歴史文化研究センター, 研究機関研究員 (70457498)
|
研究期間 (年度) |
2022-04-01 – 2025-03-31
|
研究課題ステータス |
交付 (2022年度)
|
配分額 *注記 |
4,550千円 (直接経費: 3,500千円、間接経費: 1,050千円)
2024年度: 650千円 (直接経費: 500千円、間接経費: 150千円)
2023年度: 1,560千円 (直接経費: 1,200千円、間接経費: 360千円)
2022年度: 2,340千円 (直接経費: 1,800千円、間接経費: 540千円)
|
キーワード | くずし字 / マルチモーダル学習 / AI-OCR / オープンデータ / 共創知 / 市民科学 / 御家流くずし字データセット / 翻刻支援システム / 固有表現データセット |
研究開始時の研究の概要 |
全国には江戸期に作成された手書きの公文書があり、これらは当時の行政や経済を読み解く上で重要な史料である。大量の公文書の内容を把握するには、当時の標準的な字体である御家流くずし字を読めるようになり、当時の社会システムを理解する必要がある。本研究では漢字の多い御家流くずし字の読解を支援するため、大量のくずし字画像データセットを用いた視覚的な画像認識システムを構築する。さらに、これまでに得た翻刻文と固有表現データを用いて言語学的なアプローチからも画像認識を支援する仕組みを作る。
|
研究実績の概要 |
この研究では、御家流と呼ばれる江戸期の公的な文書などに使用する書体で書かれた日記(業務文書)の翻刻を支援するシステムを開発する。最近は、IIIFという標準規格に基づいた歴史文化系画像が公開されており、これらの画像を使った人文学研究のためのAI-OCR(光学文字認識)技術で自動翻刻が試みられている。例えば、現行のAI-OCRアプリ「miwo」は、AI-OCR技術によりくずし字で書かれた文書などの画像を読み取り、楷書体の文字に翻刻するアプリの中でも実用的なものだが、漢字が95%以上を占める江戸期の日記に対しては、文字位置の判定は高精度に行う一方で、文字の判定は10%~50%程度に留まる。これは、AI-OCRに用いる学習データの量と種類が不足しているためである。 現在利用可能なくずし字データは、人文学オープンデータ共同利用センター(CODH)から配布されているものがあるが、これらのデータは主に文学作品で変体仮名の多用される古典籍画像から、専門家によって手作業でアノテーションされたものである。他方、くずし字の解読がある程度の訓練を要するものである以上、不特定多数によるクラウドソーシングのような方法は品質保証が難しく非現実的である。しかし、最終的には専門家によるデータの確認も必要である。このような状況下でくずし字用のAI-OCRの質を高めるには、人と技術をうまく活用する手法を確立することで、多様な文書に用いられていた御家流くずし字字形の学習データを増やす仕組みを確立することが重要となる。 今年度は、くずし字の読み解きに興味のある市民と希少な専門家の技術を効率的に生かす翻刻支援システムにより正解データを増やせる環境を構築した。専用作業サイトを実装して2名に実際にサイトを利用して御家流くずし字のアノテーションデータを修正し、正解データに仕上げることが可能になった。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
本研究では、江戸期の御家流で書かれた日記に対する翻刻を支援するシステムを構築する。 この目的を達成するにあたり、1) 御家流くずし字画像のデータセット構築システム、2) マルチモーダル学習による御家流文字判定モデル構築システムと、大きく分けて2つのサブシステムの構築を考えている。 1の御家流くずし字画像データセット構築システムでは、既存のくずし字判定モデルであるKuroNetを利用して資料画像に対してOCRを適用し、あらかじめ1文字画像とその読み方や資料上の位置が記されたアノテーションデータを自動作成しておく。そのアノテーションデータと元資料の画像を専用ウェブサイトkuzushiji.work上で重ねて可視化する。サイト上では作業者が翻刻済みの日記記事文などを参照しながら1文字ずつ修正する。当サイトではログイン・作業者属性管理、IIIF機能および自動保存機能付き実作業画面、時限機能付き作業進捗管理、最終的な正解データを確定するための機能を搭載する。また、当サイト開発については、予定通り研究1年目で終わり、実際にテスト運用を行い期待通りの作業を進められている事を確認した。現在作業者2人で約70丁分の正解データを作成した。2年目以降、本格的に作業者を増やし、可能な限り御家流くずし字のアノテーションデータを増やしていく予定である。 2については、事前に文字判定システムに用いる候補モデルを調査しており、2年目以降に判定モデル構築のためのテスト開発に着手する予定である。
|
今後の研究の推進方策 |
開発したウェブサイト上で作業する人員の確保するにあたり、くずし字を少しでも読める人の確保は一組織であると難しいためオンラインで参加者を募りたいが、研究代表者自体も組織を異動したこともあり、研究の手続自体で遅延が起きている。AIモデルを作成するには通常多くの正解データが必要であるが、zero-shotやfew-shot、データの水増し手法(augmentation)などの工夫を新たに導入したい。 また、取得した正解データを検索できるシステムを作成し、作業の進捗をオープンにしながらより詳しい情報を得られることが可能なウェブサイトを別途構築したい。 最終的には、くずし字認識性能を高めるため、御家流くずし字画像、翻刻済みテキスト、固有表現ラベルつきデータセットを組み合わせてマルチモーダル学習モデルを構築する予定である。
|