研究課題/領域番号 |
19K13085
|
研究種目 |
若手研究
|
配分区分 | 基金 |
審査区分 |
小区分02010:日本文学関連
|
研究機関 | 大学共同利用機関法人情報・システム研究機構(機構本部施設等) |
研究代表者 |
Clanuwat Tarin 大学共同利用機関法人情報・システム研究機構(機構本部施設等), データサイエンス共同利用基盤施設, 特任助教 (10835177)
|
研究期間 (年度) |
2019-04-01 – 2022-03-31
|
研究課題ステータス |
完了 (2021年度)
|
配分額 *注記 |
3,900千円 (直接経費: 3,000千円、間接経費: 900千円)
2021年度: 520千円 (直接経費: 400千円、間接経費: 120千円)
2020年度: 1,430千円 (直接経費: 1,100千円、間接経費: 330千円)
2019年度: 1,950千円 (直接経費: 1,500千円、間接経費: 450千円)
|
キーワード | くずし字 / 機械学習 / 文字認識 / 古典籍 / 日本文学 / くずし字認識 / コンペティション / 翻刻 |
研究開始時の研究の概要 |
本研究はディープラーニングによる、くずし字認識システム、サービスを開発する研究である。応募者が中間手順が不要の新しい手法を提案し、モデルを開発した。この手法は生物医療分野の細胞画像で領域検出に成功しており、実験を行ったところ、精度が70%~93%までたどり着いた。さらに、2019年に人文学オープンデータ共同利用センター(CODH)が主催する、くずし字認識国際コンペティションの参加者からアルゴリズムアイディアを取り入れてくずし字認識モデルを改善し、CODHの所持している日本古典籍データセットを翻刻して一般公開する。さらに、くずし字に関するさまざまなサービスを公開する。
|
研究成果の概要 |
本研究は機械学習によるくずし字認識の研究であり、研究代表者はくずし字認識モデルKuroNetを開発し、認識精度が90%に達した。KuroNetの特徴は典型的な文字認識の処理順を逆転させ、難易度が高いレイアウト解析を後に回して文字認識を先に行うという方法である。そして、2019年に国際的AIコンペKaggle Kuzushiji Recognitionを開催した。このコンペの問題設定やデータ準備の作業に対してKuroNetは不可欠だった。さらに、IIIF KuroNetくずし字認識サービスが公開された。最後にKuroNetを利用しAIくずし字認識スマホアプリ「みを」を開発し無料アプリで公開した。
|
研究成果の学術的意義や社会的意義 |
日本ではくずし字が千年以上も前から使われており、数億点規模の資料が保管されているが、現代日本人はそれらの資料を利用できない問題がある。この問題は日本の歴史的資料の保存と活用を阻む一つの原因となっている。本研究で開発した認識モデルやさまざまなサービスはこの問題を解決するためである。そして、誰でも簡単にくずし字認識モデルを利用することを実現した。国内外の博物館や図書館が公開した画像はIIIF KuroNetくずし字認識サービスで、ユーザの手持ちの資料は「みを」アプリでくずし字認識を行える。最後にくずし字データセットやKaggleコンペを通して、海外の研究者にも日本文化への関心が高めたともいえよう。
|