2020 Fiscal Year Research-status Report
Devanagari OCR and Sanskrit E-Text Archive
Project/Area Number |
20K20692
|
Research Institution | The University of Tokyo |
Principal Investigator |
加藤 隆宏 東京大学, 大学院人文社会系研究科(文学部), 准教授 (80637934)
|
Project Period (FY) |
2020-07-30 – 2022-03-31
|
Keywords | デーヴァナーガリー / サンスクリット / OCR / 光学文字認識 / データベース |
Outline of Annual Research Achievements |
本研究「デーヴァナーガリー文字OCRの開発とサンスクリット文献データベースの構築」は、ヒンディー語、サンスクリット語、ネパール語などの諸語に用いられるインド系文字の一つ、デーヴァナーガリー文字を読み取るための光学文字認識(OCR)ソフトウェアを開発し、その技術を用いて読み取った文献群のデータベースを構築することである。今年度は、デーヴァナーガリー文字を認識するOCRを開発するために、AIエンジンによるデータ分析の材料となる「字形データセット(教師データ)」の作成を中心に行った。 「字形データセット」の作成については、既存の文字認識ツールを複数テストしてこれらの弱点を分析することから始めた。文字システムや文法構造についての専門知識を有する研究者とOCR技術の開発者が共同して、矩形(データ採取の際に四角形で囲む文字の最小単位)の範囲設定、翻刻・データ化の方法を検討した。採取した文字をもとに作成した出現頻度表を分析し、出現頻度の低い文字を選んで採取すると同時に、出現頻度が極端に低い文字種については対応する文字を既存のフォントをもとに作成することも試みた。これらの方法によって「字形データセット」のさらなる充実がなされた。 事業開始時から月2回程度の研究打合せを行い、作業とフィードバックを綿密に繰り返すことによって、現時点で最も効率がよいと思われる方法でデータの収集を継続して行っている。現時点で採取できた文字種は約1430種、文字数は約49500文字となる。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
開発者側から提供されたツールを使いながら、AI-OCR開発に必要な「字形データセット」を順調に作成することができている。
|
Strategy for Future Research Activity |
今後の研究については、次のような段階的推進方策を計画している。 (1)これまでに作成した「字形データセット」をさらにブラッシュアップしていく。現時点では頻出する文字種について十分なデータが得られているが、それ以外の出現頻度の低い結合文字などについてはさらなるデータ収集が必要となる。出現頻度表を分析し、出現頻度の低い文字を選んで採取すると同時に、出現頻度が極端に低い文字種については対応する文字を既存のフォントをもとに作成する。(2)「字形データセット」をもとにしたAI-OCRを生成する。(3)生成されたAI-OCRを使って、ターゲットとするテキスト群(今回はアーナンダ・アーシュラマ・シリーズの文献群)の文字認識テストを行う。(4)AI-OCRのテスト結果を分析し、これをさらにチューニングしてAI-OCRの精度を高める。(5)AI-OCRの精度がある程度の水準まで達した時点で、ターゲットとするテキスト群をスキャンしてデジタル化。(6)デジタル化されたテキスト群を検索可能な電子テキストデータベース化する。(7)字形データセット作成に使用した文献以外の文献に対してOCR認識実験の実施。活版の形状が異なるものに応用できるかどうかなどを検証する。この結果を分析することによって、今後の課題の洗い出しを行う。
|
Causes of Carryover |
申請時の計画ではR2年度内にAI文字認識エンジンの生成(外注)を行う予定であったが、「字形データセット」の作成をR3年度途中まで行い、より改良したデータを使ってAI-OCRを生成することとした。そのために、R2年度分予算の一部をR3年度分に合わせてAIエンジン生成のための外注費に充当する予定である。
|