2018 Fiscal Year Research-status Report
Integration of Crowdsourcing and Machine Learning for Large-scale Transcription of Pre-modern Historical Manuscripts
Project/Area Number |
18K18338
|
Research Institution | National Museum of Japanese History |
Principal Investigator |
橋本 雄太 国立歴史民俗博物館, 大学共同利用機関等の部局等, 助教 (10802712)
|
Project Period (FY) |
2018-04-01 – 2020-03-31
|
Keywords | 機械学習 / クラウドソーシング / くずし字 / 古典籍 / 古文書 |
Outline of Annual Research Achievements |
「現在までの進捗状況」に後述するように、機械学習による自動認識の研究よりも、翻刻文からの情報抽出の効率化や、クラウドソーシング翻刻システムの改良を中心に研究を進めた。
くずし字翻刻の高効率化に付随する問題として、翻刻した資料からの情報抽出が困難であるという問題があった。そこで、日本語歴史資料の記述に特化した軽量マークアップ言語Koji(http://www.koji-lang.org/)を開発した。Kojiは形式文法の一種である解析表現文法(Parser Expression Grammar)で定義されており、史料中の日時や地名等の情報を明示的にタグ付けすることができる。加えて言語の処理系を整備するために、縦書きでの記述や構文強調、エラー検知などに対応したKojiのためのWebエディタを開発した。このエディタはscriptタグを含めることで任意のWebページに設置することができる。
災害資料のクラウドソーシング翻刻プラットフォーム「みんなで翻刻」(https://honkoku.org/)では、地震研究所図書室が所蔵する和古書資料499点(画像数7940枚)を公開している。2019年2月現時点までに、このうちの94%にあたる481点(画像数7467枚, 558万文字)が4,600名の参加者によって翻刻されている。当初の計画では、この「みんなで翻刻」にくずし字の自動認識エンジンを組み込み、高効率なくずし字の翻刻を実現する予定であったが、本年度はこの段階までには至らなかった。
|
Current Status of Research Progress |
Current Status of Research Progress
3: Progress in research has been slightly delayed.
Reason
本研究では機械学習とクラウドソーシングを組み合わせた前近代資料の高効率なテキスト化を目標としているが、本研究の申請当時から研究状況に大きな変化があった。画像セグメンテーションに利用されるアルゴリズムU-Netを利用し、レイアウト解析を実行せずとも「くずし字」の高精度の自動認識が可能になったのである[Clanuwat 2018]。この状況を踏まえて研究方針を転換し、機械学習システムそのものの研究よりも、クラウドソーシングシステムとのインターフェイス部分の研究開発の重点を置くことにした。このため、当初の計画よりも進捗に遅れが出ている。
|
Strategy for Future Research Activity |
くずし字の自動認識を研究する研究者・企業との提携を始めている。2019年度前半に、自動認識エンジンを組み込んだクラウドソーシング翻刻システムを公開予定である。このシステム上で(1)手作業による翻刻に比べどの程度効率化が進むか、(2)人間による翻刻との認識精度の差異、(3)教育など翻刻作業の効率化以外の適用可能性、などについて検証をおこなう。
|