• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2020 Fiscal Year Research-status Report

End-to-end Pre-modern Japanese Kuzushiji Recognition with Deep Learning

Research Project

Project/Area Number 19K13085
Research Institution大学共同利用機関法人情報・システム研究機構(機構本部施設等)

Principal Investigator

Clanuwat Tarin  大学共同利用機関法人情報・システム研究機構(機構本部施設等), データサイエンス共同利用基盤施設, 特任助教 (10835177)

Project Period (FY) 2019-04-01 – 2022-03-31
Keywordsくずし字 / 文字認識 / 機械学習 / 日本文学
Outline of Annual Research Achievements

昨年の開発したKuroNetをさらに改良し、現段階では条件のよい資料であれば精度が85%~95%まで上がった。その改良したKuroNetの論文はSpringer Nature Special Issue on Document Analysis and Recognitionに投稿した。その後、2019年度に開催したKaggleコンペのモデルを取り組んで、画像にある文字のバウンディングボックスの位置を指定できるモデルをAPIに開発した。このバウンディングボックスモデルを利用し、「みんなで翻刻」プロジェクトからもらった画像とテキストデータをくずし字データセットの形式を変換し、今後KuroNetとKaggleモデルを再学習する予定である。さらに、今まで開発した複数のくずし字認識モデルをアンサンブルし、CODHの日本古典籍データセットの資料を認識する作業を開始した。そして、くずし字資料の検索システムを開発するために、くずし字資料のテキストデータを出力するモデルである、Simple Rule-Based、Adaptive Rule- Based、Deep Autoregressive Sequence Modelを3つ開発した。現段階では一番安定しているAdaptive Rule-BasedモデルをAPI化し、近いうちにテキスト出力サービスを公開する予定である。最後に2019年度に開催したKaggleコンペ論文はデジタルアーカイブ学会第2回学会賞として、学術賞(研究論文)を受賞し、KuroNetくずし字認識サービスはデジタルアーカイブ推進コンソーシアム(DAPCON)の2020デジタルアーカイブ産業賞として、技術賞を受賞した。

Current Status of Research Progress
Current Status of Research Progress

2: Research has progressed on the whole more than it was originally planned.

Reason

2020年度の研究の課題はくずし字データセットを増加することと検索システムを開発することである。データ増加はバウンディングボックスモデルを人間の翻刻したテキストデータとその資料の画像を文字の位置にマッチングさせ、くずし字データセット形式のデータを半自動で作成することが可能になった。そして、検索システムを開発するために、テキスト出力モデルを開発したが、くずし字資料のレイアウトが複雑であるため、現段階ではどの資料でも対応できるモデルはないが、安定しているAdaptive Rule-BaseモデルをAPI化し、出力したテキストから検索システムを開発しようと考えている。しかし、KuroNetとKaggleモデルの認識結果の精度が90%まで高くても10%のミスがあり、テキスト出力モデルも完璧ではないため、テキスト出力なしで検索できるシステムも同時に開発している。2019年度にCODHの古典籍データセットを全部認識しようとしたが、資料によって認識精度が左右するため、現段階では認識精度の高そうな資料を選択し、検索可にする作業を進めている。

Strategy for Future Research Activity

2021年度はくずし字データセットをさらに増加し、KuroNetとKaggleモデルを改良する。そして、検索システムの開発に集中する。重要な課題は完璧ではないくずし字認識モデルの認識結果をどのように検索結果を出せるようにするかである。そのため、テキスト出力ありと、テキスト出力なしの検索システムを比較し、年末に検索システムを公開する。最後にCODHの日本古典籍データセットから資料を選択し、できるだけ多くの資料を検索可にする。

Causes of Carryover

コロナ禍の中で在宅勤務のため出張がなかったため、34,985円の残高がある。

  • Research Products

    (8 results)

All 2021 2020 Other

All Journal Article (3 results) (of which Int'l Joint Research: 1 results,  Peer Reviewed: 3 results,  Open Access: 1 results) Presentation (4 results) (of which Int'l Joint Research: 2 results,  Invited: 3 results) Remarks (1 results)

  • [Journal Article] Kaggle くずし字認識 ─世界規模の人文系コンペ開催への挑戦─2020

    • Author(s)
      北本 朝展 , カラーヌワット タリン , ボーバー・イリザー ミケル
    • Journal Title

      人工知能学会誌

      Volume: 35 Pages: 366-376

    • Peer Reviewed
  • [Journal Article] KuroNet: Regularized Residual U-Nets for End-to-End Kuzushiji Character Recognition2020

    • Author(s)
      Alex Lamb , Tarin Clanuwat , Asanobu Kitamoto
    • Journal Title

      SN Computer Science

      Volume: 1 Pages: -

    • DOI

      10.1007/s42979-020-00186-z

    • Peer Reviewed / Open Access / Int'l Joint Research
  • [Journal Article] くずし字認識の進化とサービス化の展開2020

    • Author(s)
      カラーヌワット タリン , 北本朝展
    • Journal Title

      人文科学とコンピュータシンポジウム じんもんこん2020論文集

      Volume: - Pages: 3-10

    • Peer Reviewed
  • [Presentation] Japanese Culture and AI2021

    • Author(s)
      Tarin Clanuwat
    • Organizer
      JST Sakura Science Club, Japan Science and Technology Agency
    • Int'l Joint Research / Invited
  • [Presentation] くずし字認識の進化とサービス化の展開2020

    • Author(s)
      カラーヌワット・タリン
    • Organizer
      人文科学とコンピュータシンポジウム じんもんこん2020
  • [Presentation] Kuzushiji and Premodern Japanese Studies: Learning Resources and Artificial Intelligence Initiatives2020

    • Author(s)
      Tarin Clanuwat
    • Organizer
      Centre for Japanese Research, the University of British Columbia, Canada
    • Int'l Joint Research / Invited
  • [Presentation] AIとみんなで翻刻2020

    • Author(s)
      カラーヌワット・タリン
    • Organizer
      みんなで翻刻サミット
    • Invited
  • [Remarks] KuroNetくずし字認識サービス(AI OCR)

    • URL

      http://codh.rois.ac.jp/kuronet/

URL: 

Published: 2021-12-27  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi