• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to previous page

End-to-end Pre-modern Japanese Kuzushiji Recognition with Deep Learning

Research Project

Project/Area Number 19K13085
Research Category

Grant-in-Aid for Early-Career Scientists

Allocation TypeMulti-year Fund
Review Section Basic Section 02010:Japanese literature-related
Research Institution大学共同利用機関法人情報・システム研究機構(機構本部施設等)

Principal Investigator

Clanuwat Tarin  大学共同利用機関法人情報・システム研究機構(機構本部施設等), データサイエンス共同利用基盤施設, 特任助教 (10835177)

Project Period (FY) 2019-04-01 – 2022-03-31
Project Status Completed (Fiscal Year 2021)
Budget Amount *help
¥3,900,000 (Direct Cost: ¥3,000,000、Indirect Cost: ¥900,000)
Fiscal Year 2021: ¥520,000 (Direct Cost: ¥400,000、Indirect Cost: ¥120,000)
Fiscal Year 2020: ¥1,430,000 (Direct Cost: ¥1,100,000、Indirect Cost: ¥330,000)
Fiscal Year 2019: ¥1,950,000 (Direct Cost: ¥1,500,000、Indirect Cost: ¥450,000)
Keywordsくずし字 / 機械学習 / 文字認識 / 古典籍 / 日本文学 / くずし字認識 / コンペティション / 翻刻
Outline of Research at the Start

本研究はディープラーニングによる、くずし字認識システム、サービスを開発する研究である。応募者が中間手順が不要の新しい手法を提案し、モデルを開発した。この手法は生物医療分野の細胞画像で領域検出に成功しており、実験を行ったところ、精度が70%~93%までたどり着いた。さらに、2019年に人文学オープンデータ共同利用センター(CODH)が主催する、くずし字認識国際コンペティションの参加者からアルゴリズムアイディアを取り入れてくずし字認識モデルを改善し、CODHの所持している日本古典籍データセットを翻刻して一般公開する。さらに、くずし字に関するさまざまなサービスを公開する。

Outline of Final Research Achievements

This research is a study of machine-learning-based Kuzushiji character recognition. We developed a Kuzushiji character recognition model called KuroNet with 90% accuracy on the test data. The KuroNet features a method that reverses the typical processing order for character recognition, by perform character recognition first then perform layout analysis. This method works well with Kuzushiji document which the layout can be very hard. In 2019, we hosted the international AI competition Kaggle Kuzushiji Recognition. KuroNet was indispensable for the problem setup and data preparation work for this competition. Furthermore, We also released the IIIF KuroNet Kuzushiji Recognition service. Finally, KuroNet was used to develop the AI Kuzushiji Recognition smartphone application "miwo" and released as a free app for both Android and iOS.

Academic Significance and Societal Importance of the Research Achievements

日本ではくずし字が千年以上も前から使われており、数億点規模の資料が保管されているが、現代日本人はそれらの資料を利用できない問題がある。この問題は日本の歴史的資料の保存と活用を阻む一つの原因となっている。本研究で開発した認識モデルやさまざまなサービスはこの問題を解決するためである。そして、誰でも簡単にくずし字認識モデルを利用することを実現した。国内外の博物館や図書館が公開した画像はIIIF KuroNetくずし字認識サービスで、ユーザの手持ちの資料は「みを」アプリでくずし字認識を行える。最後にくずし字データセットやKaggleコンペを通して、海外の研究者にも日本文化への関心が高めたともいえよう。

Report

(4 results)
  • 2021 Annual Research Report   Final Research Report ( PDF )
  • 2020 Research-status Report
  • 2019 Research-status Report
  • Research Products

    (27 results)

All 2022 2021 2020 2019 Other

All Journal Article (7 results) (of which Int'l Joint Research: 2 results,  Peer Reviewed: 6 results,  Open Access: 3 results) Presentation (15 results) (of which Int'l Joint Research: 8 results,  Invited: 12 results) Remarks (5 results)

  • [Journal Article] 資料調査のためのAIくずし字認識スマホアプリ「みを」2021

    • Author(s)
      カラーヌワット タリン , 北本 朝展
    • Journal Title

      人文科学とコンピュータシンポジウム じんもんこん2021論文集

      Volume: 1 Pages: 302-309

    • NAID

      170000186266

    • Related Report
      2021 Annual Research Report
    • Peer Reviewed
  • [Journal Article] Kaggle くずし字認識 ─世界規模の人文系コンペ開催への挑戦─2020

    • Author(s)
      北本 朝展 , カラーヌワット タリン , ボーバー・イリザー ミケル
    • Journal Title

      人工知能学会誌

      Volume: 35 Pages: 366-376

    • NAID

      130007917848

    • Related Report
      2020 Research-status Report
    • Peer Reviewed
  • [Journal Article] KuroNet: Regularized Residual U-Nets for End-to-End Kuzushiji Character Recognition2020

    • Author(s)
      Alex Lamb , Tarin Clanuwat , Asanobu Kitamoto
    • Journal Title

      SN Computer Science

      Volume: 1 Issue: 3 Pages: 1-15

    • DOI

      10.1007/s42979-020-00186-z

    • Related Report
      2020 Research-status Report
    • Peer Reviewed / Open Access / Int'l Joint Research
  • [Journal Article] くずし字認識の進化とサービス化の展開2020

    • Author(s)
      カラーヌワット タリン , 北本朝展
    • Journal Title

      人文科学とコンピュータシンポジウム じんもんこん2020論文集

      Volume: - Pages: 3-10

    • NAID

      170000183917

    • Related Report
      2020 Research-status Report
    • Peer Reviewed
  • [Journal Article] 文字データの分析――機械学習によるくずし字認識の可能性とそのインパクト――2019

    • Author(s)
      北本 朝展 , カラーヌワット タリン , 宮崎 智 , 山本 和明
    • Journal Title

      電子情報通信学会誌

      Volume: 102 Pages: 563-568

    • Related Report
      2019 Research-status Report
    • Open Access
  • [Journal Article] くずし字認識のためのKaggle機械学習コンペティションの経過と成果2019

    • Author(s)
      北本 朝展 , カラーヌワット タリン , Alex LAMB , Mikel BOBER-IRIZAR
    • Journal Title

      人文科学とコンピュータシンポジウム じんもんこん2019論文集

      Volume: - Pages: 223-230

    • NAID

      170000180927

    • Related Report
      2019 Research-status Report
    • Peer Reviewed
  • [Journal Article] KuroNet: Pre-Modern Japanese Kuzushiji Character Recognition with Deep Learning2019

    • Author(s)
      Tarin Clanuwat, Alex Lamb, Asanobu Kitamoto
    • Journal Title

      The International Conference on Document Analysis and Recognition (ICDAR) Proceeding

      Volume: 2019 Pages: 1-8

    • Related Report
      2019 Research-status Report
    • Peer Reviewed / Open Access / Int'l Joint Research
  • [Presentation] AIによるくずし字認識の研究2022

    • Author(s)
      Tarin Clanuwat
    • Organizer
      Seminar: An Invitation to Digital Humanities: AI, Research Collaboration, Haruki Murakami Library, Waseda University and Digital Transformation,
    • Related Report
      2021 Annual Research Report
    • Int'l Joint Research / Invited
  • [Presentation] Nissan Seminar: Deciphering pre-modern Japanese manuscripts: kuzushiji recognition systems and AI,2021

    • Author(s)
      Tarin Clanuwat
    • Organizer
      Oxford School of Global and Area Studies, University of Oxford
    • Related Report
      2021 Annual Research Report
    • Int'l Joint Research / Invited
  • [Presentation] miwo Kuzushiji recognition smartphone application with AI,2021

    • Author(s)
      Tarin Clanuwat
    • Organizer
      The Alan Turing Inistutite
    • Related Report
      2021 Annual Research Report
    • Int'l Joint Research / Invited
  • [Presentation] AIくずし字認識アプリ「みを」プロジェクトから学んだこと2021

    • Author(s)
      Tarin Clanuwat
    • Organizer
      Google Cloud Summit
    • Related Report
      2021 Annual Research Report
    • Invited
  • [Presentation] “miwo” AI Kuzushiji Recognition Application for Japanese Historical Document2021

    • Author(s)
      Tarin Clanuwat
    • Organizer
      Ritsumeikan University Art Research Center
    • Related Report
      2021 Annual Research Report
    • Int'l Joint Research / Invited
  • [Presentation] AIくずし字認識アプリ「みを」:機械学習の運用の課題2021

    • Author(s)
      Tarin Clanuwat
    • Organizer
      NeurIPS Meetup Japan
    • Related Report
      2021 Annual Research Report
    • Int'l Joint Research / Invited
  • [Presentation] 資料調査のための AI くずし字認識スマホアプリ「みを」2021

    • Author(s)
      Tarin Clanuwat
    • Organizer
      情報処理学会、人文科学とコンピュータシンポジウム
    • Related Report
      2021 Annual Research Report
  • [Presentation] Japanese Culture and AI2021

    • Author(s)
      Tarin Clanuwat
    • Organizer
      JST Sakura Science Club, Japan Science and Technology Agency
    • Related Report
      2020 Research-status Report
    • Int'l Joint Research / Invited
  • [Presentation] くずし字認識の進化とサービス化の展開2020

    • Author(s)
      カラーヌワット・タリン
    • Organizer
      人文科学とコンピュータシンポジウム じんもんこん2020
    • Related Report
      2020 Research-status Report
  • [Presentation] Kuzushiji and Premodern Japanese Studies: Learning Resources and Artificial Intelligence Initiatives2020

    • Author(s)
      Tarin Clanuwat
    • Organizer
      Centre for Japanese Research, the University of British Columbia, Canada
    • Related Report
      2020 Research-status Report
    • Int'l Joint Research / Invited
  • [Presentation] AIとみんなで翻刻2020

    • Author(s)
      カラーヌワット・タリン
    • Organizer
      みんなで翻刻サミット
    • Related Report
      2020 Research-status Report
    • Invited
  • [Presentation] 世界中のアイデアを集めるくずし字コンペの開催2019

    • Author(s)
      カラーヌワット・タリン
    • Organizer
      日本文化とAIシンポジウム
    • Related Report
      2019 Research-status Report
  • [Presentation] くずし字xAIオンラインで世界に開く日本古典籍2019

    • Author(s)
      カラーヌワット・タリン
    • Organizer
      DMC 研究センターシンポジウム、第9回 大学教育のミライ:オープンエデュケーションのその先へ
    • Related Report
      2019 Research-status Report
    • Invited
  • [Presentation] Kuzushiji and AI : A Case Study of Multidisciplinary Research2019

    • Author(s)
      カラーヌワット・タリン
    • Organizer
      次世代日本研究者協働研究ワークショップ
    • Related Report
      2019 Research-status Report
    • Int'l Joint Research / Invited
  • [Presentation] AIによるくずし字認識、古典文学と情報学の世界的なコラボレーション2019

    • Author(s)
      カラーヌワット・タリン
    • Organizer
      総研大文化フォーラム2019
    • Related Report
      2019 Research-status Report
    • Invited
  • [Remarks] みを(miwo) - AIくずし字認識アプリ

    • URL

      http://codh.rois.ac.jp/miwo/

    • Related Report
      2021 Annual Research Report
  • [Remarks] 浮世絵顔データセット

    • URL

      http://codh.rois.ac.jp/ukiyo-e/face-dataset/index.html

    • Related Report
      2021 Annual Research Report
  • [Remarks] KuroNetくずし字認識サービス(AI OCR)

    • URL

      http://codh.rois.ac.jp/kuronet/

    • Related Report
      2020 Research-status Report
  • [Remarks] KuroNetくずし字認識サービス

    • URL

      http://codh.rois.ac.jp/kuronet/

    • Related Report
      2019 Research-status Report
  • [Remarks] AIくずし字認識(一文字)

    • URL

      http://codh.rois.ac.jp/char-shape/app/single-mobilenet/

    • Related Report
      2019 Research-status Report

URL: 

Published: 2019-04-18   Modified: 2023-01-30  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi