本研究プロジェクトでは、AIエンジンによるデータ分析の材料となるデーヴァナーガリー文字の「字形データセット(教師データ)」作成を中心に行った。2021年7月には一度目のAI-OCRを生成して認識精度を検証した。その後もデータの追加とチューニングを繰り返し、最終的には1604文字種、48770文字数からなる字形データセットを完成した。このデータセットをもとに二度目のAI-OCRを生成し、サンプル文書を読み取って認識精度を検証した。この検証では、総文字数2434文字のところ96.14%(認識結果が正解文字のみの場合)、98.48%(認識結果の候補に正解文字が含まれる場合)という結果が得られた。
|