2021 年度研究成果報告書

デーヴァナーガリー文字OCRの開発とサンスクリット文献データベースの構築

研究課題

PDF

研究課題/領域番号	20K20692
研究種目	挑戦的研究(萌芽)
配分区分	基金
審査区分	中区分2:文学、言語学およびその関連分野
研究機関	東京大学
研究代表者	加藤隆宏東京大学, 大学院人文社会系研究科(文学部), 准教授 (80637934)
研究期間 (年度)	2020-07-30 – 2022-03-31
キーワード	サンスクリット / OCR / デーヴァナーガリー
研究成果の概要	本研究プロジェクトでは、AIエンジンによるデータ分析の材料となるデーヴァナーガリー文字の「字形データセット（教師データ）」作成を中心に行った。2021年7月には一度目のAI-OCRを生成して認識精度を検証した。その後もデータの追加とチューニングを繰り返し、最終的には1604文字種、48770文字数からなる字形データセットを完成した。このデータセットをもとに二度目のAI-OCRを生成し、サンプル文書を読み取って認識精度を検証した。この検証では、総文字数2434文字のところ96.14%（認識結果が正解文字のみの場合）、98.48%（認識結果の候補に正解文字が含まれる場合）という結果が得られた。
自由記述の分野	インド哲学・サンスクリット文献学
研究成果の学術的意義や社会的意義	本研究によって開発されたデーヴァナーガリー文字ＯＣＲは、第一の目的としてサンスクリット語文献（版本）をテキストデータ化するためのものであるが、その延長線上に開けた可能性として、インド国内外に大量に保存されているサンスクリット語写本資料をテキストデータ化への応用も視野に入れている。かつてマイクロフィルムに残されたものが、最近ではデジタル撮影・デジタルスキャンによって電子アーカイブ化が進められている。今後はこうした写本資料のテキストデータ化、さらには構造化が必要となってくるだろう。今回のＯＣＲ共同開発プロジェクトは、こうした研究の進展を見越したものである。