研究課題/領域番号 |
20K20692
|
研究種目 |
挑戦的研究(萌芽)
|
配分区分 | 基金 |
審査区分 |
中区分2:文学、言語学およびその関連分野
|
研究機関 | 東京大学 |
研究代表者 |
加藤 隆宏 東京大学, 大学院人文社会系研究科(文学部), 准教授 (80637934)
|
研究期間 (年度) |
2020-07-30 – 2022-03-31
|
研究課題ステータス |
完了 (2021年度)
|
配分額 *注記 |
6,370千円 (直接経費: 4,900千円、間接経費: 1,470千円)
2021年度: 2,340千円 (直接経費: 1,800千円、間接経費: 540千円)
2020年度: 4,030千円 (直接経費: 3,100千円、間接経費: 930千円)
|
キーワード | サンスクリット / OCR / デーヴァナーガリー / 光学文字認識 / データベース |
研究開始時の研究の概要 |
本研究では、ヒンディー語、サンスクリット語、ネパール語などの諸語に用いられるインド系文字の一つ、デーヴァナーガリー文字を読み取るための光学文字認識(OCR)ソフトウェアを開発し、その技術を用いて読み取った文献群のデータベースを構築する。 研究の第一段階では、これまでなかった高精度のOCRの共同開発を試み、第二段階では開発された文字認識ソフトウェアを利用して、世界各国で先行する同様のプロジェクトを凌駕しうるような規模の電子テキスト・データベース構築に向けて準備を整えたい。
|
研究成果の概要 |
本研究プロジェクトでは、AIエンジンによるデータ分析の材料となるデーヴァナーガリー文字の「字形データセット(教師データ)」作成を中心に行った。2021年7月には一度目のAI-OCRを生成して認識精度を検証した。その後もデータの追加とチューニングを繰り返し、最終的には1604文字種、48770文字数からなる字形データセットを完成した。このデータセットをもとに二度目のAI-OCRを生成し、サンプル文書を読み取って認識精度を検証した。この検証では、総文字数2434文字のところ96.14%(認識結果が正解文字のみの場合)、98.48%(認識結果の候補に正解文字が含まれる場合)という結果が得られた。
|
研究成果の学術的意義や社会的意義 |
本研究によって開発されたデーヴァナーガリー文字OCRは、第一の目的としてサンスクリット語文献(版本)をテキストデータ化するためのものであるが、その延長線上に開けた可能性として、インド国内外に大量に保存されているサンスクリット語写本資料をテキストデータ化への応用も視野に入れている。かつてマイクロフィルムに残されたものが、最近ではデジタル撮影・デジタルスキャンによって電子アーカイブ化が進められている。今後はこうした写本資料のテキストデータ化、さらには構造化が必要となってくるだろう。今回のOCR共同開発プロジェクトは、こうした研究の進展を見越したものである。
|