2021 Fiscal Year Annual Research Report
Devanagari OCR and Sanskrit E-Text Archive
Project/Area Number |
20K20692
|
Research Institution | The University of Tokyo |
Principal Investigator |
加藤 隆宏 東京大学, 大学院人文社会系研究科(文学部), 准教授 (80637934)
|
Project Period (FY) |
2020-07-30 – 2022-03-31
|
Keywords | デーヴァナーガリー / サンスクリット / OCR / 光学文字認識 / データベース |
Outline of Annual Research Achievements |
本研究は、ヒンディー語、サンスクリット語、ネパール語などの諸語に用いられるインド系文字の一つ、デーヴァナーガリー文字を読み取るための光学文字認識(OCR)ソフトウェアを開発し、そのOCRで読み取った文献群のデータベースを構築することを目的とするものである。 今年度前半は、昨年度に引き続き「字形データセット(教師データ)」の作成を継続し、2021年7月段階で約1430文字種、約49500文字からなるデータセットを作成した。これをもとに一度目のAI-OCRを生成し、サンプル文書を読み取ってその認識精度を検証した。第一回目の検証では、総文字数2,433文字のところ、91.82%(認識結果が正解文字のみの場合)、95.48%(認識結果の候補に正解文字が含まれる場合)という結果が得られた。この研究成果については、「人文科学とコンピュータ研究会」において発表した。 研究期間を通して、中心メンバーは月2回程度の研究打合せを行い、作業とフィードバックを綿密に繰り返すことによって、最も効率がよいと思われる方法でデータの収集を継続し、最終的には1604文字種、48770文字数からなる「字形データセット」を完成した。このデータセットをもとに二度目のAI-OCRを生成し、一回目と同じサンプル文書を読み取って認識精度を検証した。 第二回目の検証では、総文字数2,434文字(初回データを修正したため、一文字増加)のところ、96.14%(認識結果が正解文字のみの場合)、98.48%(認識結果の候補に正解文字が含まれる場合)という結果が得られた。同じサンプルを用いて先行するOCRの認識結果と比較してみると、今回開発したAI-OCRが認識精度の点で上回ることとなった。この研究成果については、2022年7月に予定されている国際学会Digital Humanities 2022において発表予定である。
|
Research Products
(2 results)