2021 Fiscal Year Annual Research Report

Devanagari OCR and Sanskrit E-Text Archive

Research Project

Project/Area Number	20K20692
Research Institution	The University of Tokyo
Principal Investigator	加藤隆宏東京大学, 大学院人文社会系研究科(文学部), 准教授 (80637934)
Project Period (FY)	2020-07-30 – 2022-03-31
Keywords	デーヴァナーガリー / サンスクリット / OCR / 光学文字認識 / データベース
Outline of Annual Research Achievements	本研究は、ヒンディー語、サンスクリット語、ネパール語などの諸語に用いられるインド系文字の一つ、デーヴァナーガリー文字を読み取るための光学文字認識（OCR）ソフトウェアを開発し、そのOCRで読み取った文献群のデータベースを構築することを目的とするものである。今年度前半は、昨年度に引き続き「字形データセット（教師データ）」の作成を継続し、2021年7月段階で約1430文字種、約49500文字からなるデータセットを作成した。これをもとに一度目のAI-OCRを生成し、サンプル文書を読み取ってその認識精度を検証した。第一回目の検証では、総文字数2,433文字のところ、91.82%（認識結果が正解文字のみの場合）、95.48%（認識結果の候補に正解文字が含まれる場合）という結果が得られた。この研究成果については、「人文科学とコンピュータ研究会」において発表した。研究期間を通して、中心メンバーは月2回程度の研究打合せを行い、作業とフィードバックを綿密に繰り返すことによって、最も効率がよいと思われる方法でデータの収集を継続し、最終的には1604文字種、48770文字数からなる「字形データセット」を完成した。このデータセットをもとに二度目のAI-OCRを生成し、一回目と同じサンプル文書を読み取って認識精度を検証した。第二回目の検証では、総文字数2,434文字（初回データを修正したため、一文字増加）のところ、96.14%（認識結果が正解文字のみの場合）、98.48%（認識結果の候補に正解文字が含まれる場合）という結果が得られた。同じサンプルを用いて先行するOCRの認識結果と比較してみると、今回開発したAI-OCRが認識精度の点で上回ることとなった。この研究成果については、2022年7月に予定されている国際学会Digital Humanities 2022において発表予定である。

Research Products
(2 results)

All Journal Article (1 results) (of which Peer Reviewed: 1 results, Open Access: 1 results) Presentation (1 results)

[Journal Article] デーヴァナーガリー文字OCRの開発2021
- Author(s)
  加藤隆宏、友成有紀、谷口力光、大澤留次郎、藤巻聡、岡田崇、橋本江美
- Journal Title
  
  研究報告人文科学とコンピュータ
  
  Volume: 2021-CH-127 Pages: 1-4
- Peer Reviewed / Open Access
[Presentation] デーヴァナーガリー文字OCRの開発2021
- Author(s)
  加藤隆宏、友成有紀、谷口力光、大澤留次郎、藤巻聡、岡田崇、橋本江美
- Organizer
  第127回人文科学とコンピュータ研究会