2021 Fiscal Year Annual Research Report
End-to-end Pre-modern Japanese Kuzushiji Recognition with Deep Learning
Project/Area Number |
19K13085
|
Research Institution | 大学共同利用機関法人情報・システム研究機構(機構本部施設等) |
Principal Investigator |
Clanuwat Tarin 大学共同利用機関法人情報・システム研究機構(機構本部施設等), データサイエンス共同利用基盤施設, 特任助教 (10835177)
|
Project Period (FY) |
2019-04-01 – 2022-03-31
|
Keywords | くずし字認識 / 機械学習 / 文字認識 |
Outline of Annual Research Achievements |
研究代表者がKuroNetくずし字認識モデルを開発し、同年度に国際的機械学習コンペKaggle Kuzushiji Recognitionを開催した。それらの成果でIIIF Curation Platformを活用したKuroNetくずし字認識サービスを公開することに成功した。しかし、このサービスはIIIFで公開されていない資料に対応していないため、ユーザーの手持ちの資料をくずし字認識を行えない。本研究の最終目的はくずし字資料の検索システムのプロトタイプを開発することだが、実現するまではさまざまな課題が残っている。 まず、くずし字認識モデルはテストのデータ上で認識精度が95%以上であっても、テストデータと似ていない写本などを翻刻しようとすると精度は十分ではない。なぜなら、KuroNetやKaggleモデルはプロジェクトの概念実証にすぎないのである。そのため、くずし字認識プロジェクトを実世界の資料に適用できるように、機械学習プロジェクトの運用の観点を参考にし、この研究の全体を改良しなければならないことが判明した。研究代表者はさまざまな資料の認識結果のを分析し、モデルの限界、データセットの限界、そしてサービスの限界について、2021年度の情報処理学会、人文科学とコンピュータシンポジウムに論文を投稿した。そして、この研究との連携で、研究代表者はJSTの「ACT-X『AI活用で挑む学問の革新と創成』」に「資料調査のためのオンデバイスくずし字認識」という課題で採択され、誰でもくずし字認識モデルを活用できるサービスとして開発したのがAIくずし字認識アプリ「みを」を開発した。 なお、「みを」アプリは約5万回のダウンロードがあり、2021年度のCode for Japan勝手表彰の優秀賞を受賞した。
|
Research Products
(10 results)
-
-
[Presentation] AIによるくずし字認識の研究2022
Author(s)
Tarin Clanuwat
Organizer
Seminar: An Invitation to Digital Humanities: AI, Research Collaboration, Haruki Murakami Library, Waseda University and Digital Transformation,
Int'l Joint Research / Invited
-
-
-
-
-
-
-
-