• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 課題ページに戻る

2019 年度 実施状況報告書

ディープラーニングによるEnd-to-End日本古典籍くずし字認識の研究

研究課題

研究課題/領域番号 19K13085
研究機関大学共同利用機関法人情報・システム研究機構(機構本部施設等)

研究代表者

Clanuwat Tarin  大学共同利用機関法人情報・システム研究機構(機構本部施設等), データサイエンス共同利用基盤施設, 特任助教 (10835177)

研究期間 (年度) 2019-04-01 – 2022-03-31
キーワードくずし字 / 文字認識 / 機械学習 / コンペティション / 日本文学
研究実績の概要

科研費を申請した段階でKuroNetくずし字認識モデル(以後、KuroNetモデルという)を開発し始めたのだが、当初は認識できた文字種類は409文字程度で、精度は平均60%~70%だった。その後、科研費で高性能の新しいGPUを購入し、本来問題となっていたGPUメモリーが大幅解決され、さまざまな実験ができるようになり、認識可能な文字種も2000文字を超え、精度も平均70%~80%になった。さらに国文学研究資料館から新しいくずし字データが追加されたことにより、アルゴリズムが改良され、平均精度は80%~90%になり大幅に改善された。このKuroNetモデルが2019年7月~10月に申請者がホストとして開催したKaggle Kuzushiji Recognitionコンペティションのベースラインモデルに使われ、コンペのデータ準備に重要な役割を果たした。コンペティションの開催が成功したので、Kaggle側と参加者からコンペティション設定とデータ準備の面において高評価された。
KuroNetモデルは2019年9月オーストラリア、シドニーで開催されたThe International Conference on Document Analysis and Recognition(ICDAR)にて発表され、論文も投稿した。さらに、一般の方でもくずし字認識を使えるようにするため、KuroNetくずし字認識サーバーAPIを開発し、IIIF Curation Viewer上のKuroNetくずし字認識サービスを2019年11月に公開した。申請者のくずし字認識研究の成果は情報処理学会山下記念研究賞を受賞した。

現在までの達成度 (区分)
現在までの達成度 (区分)

1: 当初の計画以上に進展している

理由

KuroNetモデルの論文をオーストラリア、ICDARで発表できただけではなく、Kaggle Kuzushiji Recognitionコンペティションの開催にも成功した。研究計画の当初はデータ収集に時間がかかりそうだったのだが、国文学研究資料館がくずし字データを追加してくれたため、コンペの準備が順調に進んだ。最も重要なポイントはコンペ期間中にくずし字認識に関する議論が活発化し、世界中の数百人の参加者から疑問とアイディアをもらったことである。さらに、このコンペのおかげで、どのアルゴリスムがくずし字認識に適しているのかを一気に試すこともできた。コンペ終了後、入賞者のモデルがオープンソースされたため、優れたアイディアをすぐにKuroNetモデルに取り入れられることも研究計画が進展している要因である。現段階はKuroNetモデルを改良中ではあるが、くずし字データセットと似たような古典籍資料であれば、精度は90%以上も期待できる。この精度は科研費申請した当初より大幅に上回った。
ところが、今後KuroNetモデルを改良するには、最も重要な課題はアルゴリスムより、くずし字データを増加することである。コンペで優勝した手法などを使うと、今まで人間の手作業で作られたデータセットの作成作業を大幅に軽減できる可能性が見えてきた。
この研究により人文学オーブンデータ共同利用センター(CODH)がWebに公開したKuroNetくずし字認識サービスは、IIIF(International Image Interoperability Framework)に準拠した画像であれば、世界のどこの図書館やミュージアムが提供する画像に対してもくずし字認識を適用できるようになっている。学会発表、講演、機械学習コンペを通して、海外の報道にもくずし字に関する記事も多数投稿され、日本古典籍文字認識の研究課題の認知度を上げることも成功した。

今後の研究の推進方策

2020年度の前半はKaggle入賞者からのアイディアを取り入れ、KuroNetモデルを改良する作業に集中する。さらに、重要な課題であるくずし字データを増加することについては、他の研究機関から協力してもらい、くずし字データセットをさらに100万字以上増量する予定がある。そして、2020年度の後半は改善されたくずし字データでKuroNetモデルに再学習させる。くずし字データセットではない近世の版本の平均精度が80%~90%を得られたら、CODHの日本古典籍データセットの1,767点(画像329,702枚)をくずし字認識し、テキストデータを出力する。その後、このデータセット内のくずし字資料検索システムを開発する。

  • 研究成果

    (9件)

すべて 2019 その他

すべて 雑誌論文 (3件) (うち国際共著 1件、 オープンアクセス 2件、 査読あり 2件) 学会発表 (4件) (うち国際学会 1件、 招待講演 3件) 備考 (2件)

  • [雑誌論文] 文字データの分析――機械学習によるくずし字認識の可能性とそのインパクト――2019

    • 著者名/発表者名
      北本 朝展 , カラーヌワット タリン , 宮崎 智 , 山本 和明
    • 雑誌名

      電子情報通信学会誌

      巻: 102 ページ: 563-568

    • オープンアクセス
  • [雑誌論文] くずし字認識のためのKaggle機械学習コンペティションの経過と成果2019

    • 著者名/発表者名
      北本 朝展 , カラーヌワット タリン , Alex LAMB , Mikel BOBER-IRIZAR
    • 雑誌名

      人文科学とコンピュータシンポジウム じんもんこん2019論文集

      巻: - ページ: 223-230

    • 査読あり
  • [雑誌論文] KuroNet: Pre-Modern Japanese Kuzushiji Character Recognition with Deep Learning2019

    • 著者名/発表者名
      Tarin Clanuwat, Alex Lamb, Asanobu Kitamoto
    • 雑誌名

      The International Conference on Document Analysis and Recognition (ICDAR) Proceeding

      巻: 2019 ページ: 1-8

    • 査読あり / オープンアクセス / 国際共著
  • [学会発表] 世界中のアイデアを集めるくずし字コンペの開催2019

    • 著者名/発表者名
      カラーヌワット・タリン
    • 学会等名
      日本文化とAIシンポジウム
  • [学会発表] くずし字xAIオンラインで世界に開く日本古典籍2019

    • 著者名/発表者名
      カラーヌワット・タリン
    • 学会等名
      DMC 研究センターシンポジウム、第9回 大学教育のミライ:オープンエデュケーションのその先へ
    • 招待講演
  • [学会発表] Kuzushiji and AI : A Case Study of Multidisciplinary Research2019

    • 著者名/発表者名
      カラーヌワット・タリン
    • 学会等名
      次世代日本研究者協働研究ワークショップ
    • 国際学会 / 招待講演
  • [学会発表] AIによるくずし字認識、古典文学と情報学の世界的なコラボレーション2019

    • 著者名/発表者名
      カラーヌワット・タリン
    • 学会等名
      総研大文化フォーラム2019
    • 招待講演
  • [備考] KuroNetくずし字認識サービス

    • URL

      http://codh.rois.ac.jp/kuronet/

  • [備考] AIくずし字認識(一文字)

    • URL

      http://codh.rois.ac.jp/char-shape/app/single-mobilenet/

URL: 

公開日: 2021-01-27  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi