研究課題/領域番号 |
19K13085
|
研究機関 | 大学共同利用機関法人情報・システム研究機構(機構本部施設等) |
研究代表者 |
Clanuwat Tarin 大学共同利用機関法人情報・システム研究機構(機構本部施設等), データサイエンス共同利用基盤施設, 特任助教 (10835177)
|
研究期間 (年度) |
2019-04-01 – 2022-03-31
|
キーワード | くずし字 / 文字認識 / 機械学習 / コンペティション / 日本文学 |
研究実績の概要 |
科研費を申請した段階でKuroNetくずし字認識モデル(以後、KuroNetモデルという)を開発し始めたのだが、当初は認識できた文字種類は409文字程度で、精度は平均60%~70%だった。その後、科研費で高性能の新しいGPUを購入し、本来問題となっていたGPUメモリーが大幅解決され、さまざまな実験ができるようになり、認識可能な文字種も2000文字を超え、精度も平均70%~80%になった。さらに国文学研究資料館から新しいくずし字データが追加されたことにより、アルゴリズムが改良され、平均精度は80%~90%になり大幅に改善された。このKuroNetモデルが2019年7月~10月に申請者がホストとして開催したKaggle Kuzushiji Recognitionコンペティションのベースラインモデルに使われ、コンペのデータ準備に重要な役割を果たした。コンペティションの開催が成功したので、Kaggle側と参加者からコンペティション設定とデータ準備の面において高評価された。 KuroNetモデルは2019年9月オーストラリア、シドニーで開催されたThe International Conference on Document Analysis and Recognition(ICDAR)にて発表され、論文も投稿した。さらに、一般の方でもくずし字認識を使えるようにするため、KuroNetくずし字認識サーバーAPIを開発し、IIIF Curation Viewer上のKuroNetくずし字認識サービスを2019年11月に公開した。申請者のくずし字認識研究の成果は情報処理学会山下記念研究賞を受賞した。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
1: 当初の計画以上に進展している
理由
KuroNetモデルの論文をオーストラリア、ICDARで発表できただけではなく、Kaggle Kuzushiji Recognitionコンペティションの開催にも成功した。研究計画の当初はデータ収集に時間がかかりそうだったのだが、国文学研究資料館がくずし字データを追加してくれたため、コンペの準備が順調に進んだ。最も重要なポイントはコンペ期間中にくずし字認識に関する議論が活発化し、世界中の数百人の参加者から疑問とアイディアをもらったことである。さらに、このコンペのおかげで、どのアルゴリスムがくずし字認識に適しているのかを一気に試すこともできた。コンペ終了後、入賞者のモデルがオープンソースされたため、優れたアイディアをすぐにKuroNetモデルに取り入れられることも研究計画が進展している要因である。現段階はKuroNetモデルを改良中ではあるが、くずし字データセットと似たような古典籍資料であれば、精度は90%以上も期待できる。この精度は科研費申請した当初より大幅に上回った。 ところが、今後KuroNetモデルを改良するには、最も重要な課題はアルゴリスムより、くずし字データを増加することである。コンペで優勝した手法などを使うと、今まで人間の手作業で作られたデータセットの作成作業を大幅に軽減できる可能性が見えてきた。 この研究により人文学オーブンデータ共同利用センター(CODH)がWebに公開したKuroNetくずし字認識サービスは、IIIF(International Image Interoperability Framework)に準拠した画像であれば、世界のどこの図書館やミュージアムが提供する画像に対してもくずし字認識を適用できるようになっている。学会発表、講演、機械学習コンペを通して、海外の報道にもくずし字に関する記事も多数投稿され、日本古典籍文字認識の研究課題の認知度を上げることも成功した。
|
今後の研究の推進方策 |
2020年度の前半はKaggle入賞者からのアイディアを取り入れ、KuroNetモデルを改良する作業に集中する。さらに、重要な課題であるくずし字データを増加することについては、他の研究機関から協力してもらい、くずし字データセットをさらに100万字以上増量する予定がある。そして、2020年度の後半は改善されたくずし字データでKuroNetモデルに再学習させる。くずし字データセットではない近世の版本の平均精度が80%~90%を得られたら、CODHの日本古典籍データセットの1,767点(画像329,702枚)をくずし字認識し、テキストデータを出力する。その後、このデータセット内のくずし字資料検索システムを開発する。
|