2019 Fiscal Year Annual Research Report
Integration of Crowdsourcing and Machine Learning for Large-scale Transcription of Pre-modern Historical Manuscripts
Project/Area Number |
18K18338
|
Research Institution | National Museum of Japanese History |
Principal Investigator |
橋本 雄太 国立歴史民俗博物館, 大学共同利用機関等の部局等, 助教 (10802712)
|
Project Period (FY) |
2018-04-01 – 2020-03-31
|
Keywords | 文字認識 / OCR / クラウドソーシング / 翻刻 |
Outline of Annual Research Achievements |
本研究の目的は、機械学習による文字認識技術とクラウドソーシングによる人海戦術を統合することで、膨大な点数が残されている日本語の歴史文献資料を効率的にテキスト化する手法を開発することであった。当初は本研究で文字認識技術の開発に取り組む計画であったが、「くずし字」の自動認識研究が申請者の予想を超えるペースで発展を遂げたことから、方針を転換し文字認識技術の研究者とのコラボレーションを通じてクラウドソーシング翻刻の効率化に取り組むこととした。 この方針のもと、2019年7月にAIによる文字認識を導入した「みんなで翻刻」の新しいバージョンを公開した。このバージョンには人文学オープンデータ共同利用センター(CODH)が開発した文字認識モデルと、凸版印刷株式会社が開発した文字認識モデルの両方が搭載されている。 新バージョンの公開後、翻刻作業は順調なペースで進行している。公開から279日が経過した本日時点で、参加者の数は687人、翻刻された文字数は192.2万字である。毎日6,800字のペースで翻刻が進んでいることになる。 次の課題として、①翻刻の正確性についてのサンプリング調査を実施すること、②AIによる文字認識の利用傾向と翻刻作業への寄与度合いについてについて調査を実施する必要がある。また、現在「みんなで翻刻」に搭載されている文字認識モデルは一文字単位での認識に対応したモデルだが、複数文字の認識やレイアウト解析に対応したより高度なモデルを導入する予定である。 また、文字認識技術研究者とのコラボレーションの延長として、「みんなで翻刻」で入力された翻刻を文字認識AIの教師データとして利用する研究を開始した。これが実現すれば、旧バージョンの「みんなで翻刻」も含めてこれまで翻刻された800万字の翻刻を教師データとして利用できることになり、文字認識AIの更なる精度向上に貢献することが見込まれる。
|