研究課題/領域番号 |
19K13085
|
研究種目 |
若手研究
|
配分区分 | 基金 |
審査区分 |
小区分02010:日本文学関連
|
研究機関 | 大学共同利用機関法人情報・システム研究機構(機構本部施設等) |
研究代表者 |
Clanuwat Tarin 大学共同利用機関法人情報・システム研究機構(機構本部施設等), データサイエンス共同利用基盤施設, 特任助教 (10835177)
|
研究期間 (年度) |
2019-04-01 – 2022-03-31
|
キーワード | くずし字 / 機械学習 / 文字認識 / 古典籍 / 日本文学 |
研究成果の概要 |
本研究は機械学習によるくずし字認識の研究であり、研究代表者はくずし字認識モデルKuroNetを開発し、認識精度が90%に達した。KuroNetの特徴は典型的な文字認識の処理順を逆転させ、難易度が高いレイアウト解析を後に回して文字認識を先に行うという方法である。そして、2019年に国際的AIコンペKaggle Kuzushiji Recognitionを開催した。このコンペの問題設定やデータ準備の作業に対してKuroNetは不可欠だった。さらに、IIIF KuroNetくずし字認識サービスが公開された。最後にKuroNetを利用しAIくずし字認識スマホアプリ「みを」を開発し無料アプリで公開した。
|
自由記述の分野 |
日本文学
|
研究成果の学術的意義や社会的意義 |
日本ではくずし字が千年以上も前から使われており、数億点規模の資料が保管されているが、現代日本人はそれらの資料を利用できない問題がある。この問題は日本の歴史的資料の保存と活用を阻む一つの原因となっている。本研究で開発した認識モデルやさまざまなサービスはこの問題を解決するためである。そして、誰でも簡単にくずし字認識モデルを利用することを実現した。国内外の博物館や図書館が公開した画像はIIIF KuroNetくずし字認識サービスで、ユーザの手持ちの資料は「みを」アプリでくずし字認識を行える。最後にくずし字データセットやKaggleコンペを通して、海外の研究者にも日本文化への関心が高めたともいえよう。
|