2021 Fiscal Year Final Research Report
End-to-end Pre-modern Japanese Kuzushiji Recognition with Deep Learning
Project/Area Number |
19K13085
|
Research Category |
Grant-in-Aid for Early-Career Scientists
|
Allocation Type | Multi-year Fund |
Review Section |
Basic Section 02010:Japanese literature-related
|
Research Institution | 大学共同利用機関法人情報・システム研究機構(機構本部施設等) |
Principal Investigator |
Clanuwat Tarin 大学共同利用機関法人情報・システム研究機構(機構本部施設等), データサイエンス共同利用基盤施設, 特任助教 (10835177)
|
Project Period (FY) |
2019-04-01 – 2022-03-31
|
Keywords | くずし字 / 機械学習 / 文字認識 / 古典籍 / 日本文学 |
Outline of Final Research Achievements |
This research is a study of machine-learning-based Kuzushiji character recognition. We developed a Kuzushiji character recognition model called KuroNet with 90% accuracy on the test data. The KuroNet features a method that reverses the typical processing order for character recognition, by perform character recognition first then perform layout analysis. This method works well with Kuzushiji document which the layout can be very hard. In 2019, we hosted the international AI competition Kaggle Kuzushiji Recognition. KuroNet was indispensable for the problem setup and data preparation work for this competition. Furthermore, We also released the IIIF KuroNet Kuzushiji Recognition service. Finally, KuroNet was used to develop the AI Kuzushiji Recognition smartphone application "miwo" and released as a free app for both Android and iOS.
|
Free Research Field |
日本文学
|
Academic Significance and Societal Importance of the Research Achievements |
日本ではくずし字が千年以上も前から使われており、数億点規模の資料が保管されているが、現代日本人はそれらの資料を利用できない問題がある。この問題は日本の歴史的資料の保存と活用を阻む一つの原因となっている。本研究で開発した認識モデルやさまざまなサービスはこの問題を解決するためである。そして、誰でも簡単にくずし字認識モデルを利用することを実現した。国内外の博物館や図書館が公開した画像はIIIF KuroNetくずし字認識サービスで、ユーザの手持ちの資料は「みを」アプリでくずし字認識を行える。最後にくずし字データセットやKaggleコンペを通して、海外の研究者にも日本文化への関心が高めたともいえよう。
|