2019 Fiscal Year Research-status Report

End-to-end Pre-modern Japanese Kuzushiji Recognition with Deep Learning

Research Project

Project/Area Number	19K13085
Research Institution	大学共同利用機関法人情報・システム研究機構(機構本部施設等)
Principal Investigator	Clanuwat Tarin 大学共同利用機関法人情報・システム研究機構(機構本部施設等), データサイエンス共同利用基盤施設, 特任助教 (10835177)
Project Period (FY)	2019-04-01 – 2022-03-31
Keywords	くずし字 / 文字認識 / 機械学習 / コンペティション / 日本文学
Outline of Annual Research Achievements	科研費を申請した段階でKuroNetくずし字認識モデル（以後、KuroNetモデルという）を開発し始めたのだが、当初は認識できた文字種類は409文字程度で、精度は平均60％～70％だった。その後、科研費で高性能の新しいGPUを購入し、本来問題となっていたGPUメモリーが大幅解決され、さまざまな実験ができるようになり、認識可能な文字種も2000文字を超え、精度も平均70％～80％になった。さらに国文学研究資料館から新しいくずし字データが追加されたことにより、アルゴリズムが改良され、平均精度は80％～90％になり大幅に改善された。このKuroNetモデルが2019年7月～10月に申請者がホストとして開催したKaggle Kuzushiji Recognitionコンペティションのベースラインモデルに使われ、コンペのデータ準備に重要な役割を果たした。コンペティションの開催が成功したので、Kaggle側と参加者からコンペティション設定とデータ準備の面において高評価された。 KuroNetモデルは2019年９月オーストラリア、シドニーで開催されたThe International Conference on Document Analysis and Recognition（ICDAR）にて発表され、論文も投稿した。さらに、一般の方でもくずし字認識を使えるようにするため、KuroNetくずし字認識サーバーAPIを開発し、IIIF Curation Viewer上のKuroNetくずし字認識サービスを2019年11月に公開した。申請者のくずし字認識研究の成果は情報処理学会山下記念研究賞を受賞した。
Current Status of Research Progress	Current Status of Research Progress 1: Research has progressed more than it was originally planned. Reason KuroNetモデルの論文をオーストラリア、ICDARで発表できただけではなく、Kaggle Kuzushiji Recognitionコンペティションの開催にも成功した。研究計画の当初はデータ収集に時間がかかりそうだったのだが、国文学研究資料館がくずし字データを追加してくれたため、コンペの準備が順調に進んだ。最も重要なポイントはコンペ期間中にくずし字認識に関する議論が活発化し、世界中の数百人の参加者から疑問とアイディアをもらったことである。さらに、このコンペのおかげで、どのアルゴリスムがくずし字認識に適しているのかを一気に試すこともできた。コンペ終了後、入賞者のモデルがオープンソースされたため、優れたアイディアをすぐにKuroNetモデルに取り入れられることも研究計画が進展している要因である。現段階はKuroNetモデルを改良中ではあるが、くずし字データセットと似たような古典籍資料であれば、精度は90％以上も期待できる。この精度は科研費申請した当初より大幅に上回った。ところが、今後KuroNetモデルを改良するには、最も重要な課題はアルゴリスムより、くずし字データを増加することである。コンペで優勝した手法などを使うと、今まで人間の手作業で作られたデータセットの作成作業を大幅に軽減できる可能性が見えてきた。この研究により人文学オーブンデータ共同利用センター（CODH）がWebに公開したKuroNetくずし字認識サービスは、IIIF（International Image Interoperability Framework）に準拠した画像であれば、世界のどこの図書館やミュージアムが提供する画像に対してもくずし字認識を適用できるようになっている。学会発表、講演、機械学習コンペを通して、海外の報道にもくずし字に関する記事も多数投稿され、日本古典籍文字認識の研究課題の認知度を上げることも成功した。
Strategy for Future Research Activity	2020年度の前半はKaggle入賞者からのアイディアを取り入れ、KuroNetモデルを改良する作業に集中する。さらに、重要な課題であるくずし字データを増加することについては、他の研究機関から協力してもらい、くずし字データセットをさらに100万字以上増量する予定がある。そして、2020年度の後半は改善されたくずし字データでKuroNetモデルに再学習させる。くずし字データセットではない近世の版本の平均精度が80％～90％を得られたら、CODHの日本古典籍データセットの1,767点（画像329,702枚）をくずし字認識し、テキストデータを出力する。その後、このデータセット内のくずし字資料検索システムを開発する。

Research Products
(9 results)

All 2019 Other

All Journal Article (3 results) (of which Int'l Joint Research: 1 results, Open Access: 2 results, Peer Reviewed: 2 results) Presentation (4 results) (of which Int'l Joint Research: 1 results, Invited: 3 results) Remarks (2 results)

[Journal Article] 文字データの分析――機械学習によるくずし字認識の可能性とそのインパクト――2019
- Author(s)
  北本朝展 , カラーヌワットタリン , 宮崎智 , 山本和明
- Journal Title
  
  電子情報通信学会誌
  
  Volume: 102 Pages: 563-568
- Open Access
[Journal Article] くずし字認識のためのKaggle機械学習コンペティションの経過と成果2019
- Author(s)
  北本朝展 , カラーヌワットタリン , Alex LAMB , Mikel BOBER-IRIZAR
- Journal Title
  
  人文科学とコンピュータシンポジウムじんもんこん2019論文集
  
  Volume: - Pages: 223-230
- Peer Reviewed
[Journal Article] KuroNet: Pre-Modern Japanese Kuzushiji Character Recognition with Deep Learning2019
- Author(s)
  Tarin Clanuwat, Alex Lamb, Asanobu Kitamoto
- Journal Title
  
  The International Conference on Document Analysis and Recognition (ICDAR) Proceeding
  
  Volume: 2019 Pages: 1-8
- Peer Reviewed / Open Access / Int'l Joint Research
[Presentation] 世界中のアイデアを集めるくずし字コンペの開催2019
- Author(s)
  カラーヌワット・タリン
- Organizer
  日本文化とAIシンポジウム
[Presentation] くずし字ｘAIオンラインで世界に開く日本古典籍2019
- Author(s)
  カラーヌワット・タリン
- Organizer
  DMC 研究センターシンポジウム、第９回大学教育のミライ：オープンエデュケーションのその先へ
- Invited
[Presentation] Kuzushiji and AI : A Case Study of Multidisciplinary Research2019
- Author(s)
  カラーヌワット・タリン
- Organizer
  次世代日本研究者協働研究ワークショップ
- Int'l Joint Research / Invited
[Presentation] ＡＩによるくずし字認識、古典文学と情報学の世界的なコラボレーション2019
- Author(s)
  カラーヌワット・タリン
- Organizer
  総研大文化フォーラム2019
- Invited
[Remarks] KuroNetくずし字認識サービス
- URL
  http://codh.rois.ac.jp/kuronet/
[Remarks] AIくずし字認識（一文字）
- URL
  http://codh.rois.ac.jp/char-shape/app/single-mobilenet/

2019 Fiscal Year Research-status Report

End-to-end Pre-modern Japanese Kuzushiji Recognition with Deep Learning

Principal Investigator

Clanuwat Tarin 大学共同利用機関法人情報・システム研究機構(機構本部施設等), データサイエンス共同利用基盤施設, 特任助教 (10835177)

Current Status of Research Progress

Reason

Research Products

[Journal Article] 文字データの分析――機械学習によるくずし字認識の可能性とそのインパクト――2019

Author(s)

Journal Title

[Journal Article] くずし字認識のためのKaggle機械学習コンペティションの経過と成果2019

Author(s)

Journal Title

[Journal Article] KuroNet: Pre-Modern Japanese Kuzushiji Character Recognition with Deep Learning2019

Author(s)

Journal Title

[Presentation] 世界中のアイデアを集めるくずし字コンペの開催2019

Author(s)

Organizer

[Presentation] くずし字ｘAIオンラインで世界に開く日本古典籍2019

Author(s)

Organizer

[Presentation] Kuzushiji and AI : A Case Study of Multidisciplinary Research2019

Author(s)

Organizer

[Presentation] ＡＩによるくずし字認識、古典文学と情報学の世界的なコラボレーション2019

Author(s)

Organizer

[Remarks] KuroNetくずし字認識サービス

URL

[Remarks] AIくずし字認識（一文字）

URL