2018 年度実施状況報告書

クラウドソーシングと機械学習を統合した歴史資料翻刻システムの開発

研究課題

研究課題/領域番号	18K18338
研究機関	国立歴史民俗博物館
研究代表者	橋本雄太国立歴史民俗博物館, 大学共同利用機関等の部局等, 助教 (10802712)
研究期間 (年度)	2018-04-01 – 2020-03-31
キーワード	機械学習 / クラウドソーシング / くずし字 / 古典籍 / 古文書
研究実績の概要	「現在までの進捗状況」に後述するように、機械学習による自動認識の研究よりも、翻刻文からの情報抽出の効率化や、クラウドソーシング翻刻システムの改良を中心に研究を進めた。くずし字翻刻の高効率化に付随する問題として、翻刻した資料からの情報抽出が困難であるという問題があった。そこで、日本語歴史資料の記述に特化した軽量マークアップ言語Koji（http://www.koji-lang.org/）を開発した。Kojiは形式文法の一種である解析表現文法（Parser Expression Grammar）で定義されており、史料中の日時や地名等の情報を明示的にタグ付けすることができる。加えて言語の処理系を整備するために、縦書きでの記述や構文強調、エラー検知などに対応したKojiのためのWebエディタを開発した。このエディタはscriptタグを含めることで任意のWebページに設置することができる。災害資料のクラウドソーシング翻刻プラットフォーム「みんなで翻刻」（https://honkoku.org/）では、地震研究所図書室が所蔵する和古書資料499点（画像数7940枚）を公開している。2019年2月現時点までに、このうちの94%にあたる481点（画像数7467枚, 558万文字）が4,600名の参加者によって翻刻されている。当初の計画では、この「みんなで翻刻」にくずし字の自動認識エンジンを組み込み、高効率なくずし字の翻刻を実現する予定であったが、本年度はこの段階までには至らなかった。
現在までの達成度 (区分)	現在までの達成度 (区分) 3: やや遅れている理由本研究では機械学習とクラウドソーシングを組み合わせた前近代資料の高効率なテキスト化を目標としているが、本研究の申請当時から研究状況に大きな変化があった。画像セグメンテーションに利用されるアルゴリズムU-Netを利用し、レイアウト解析を実行せずとも「くずし字」の高精度の自動認識が可能になったのである[Clanuwat 2018]。この状況を踏まえて研究方針を転換し、機械学習システムそのものの研究よりも、クラウドソーシングシステムとのインターフェイス部分の研究開発の重点を置くことにした。このため、当初の計画よりも進捗に遅れが出ている。
今後の研究の推進方策	くずし字の自動認識を研究する研究者・企業との提携を始めている。2019年度前半に、自動認識エンジンを組み込んだクラウドソーシング翻刻システムを公開予定である。このシステム上で(1)手作業による翻刻に比べどの程度効率化が進むか、(2)人間による翻刻との認識精度の差異、(3)教育など翻刻作業の効率化以外の適用可能性、などについて検証をおこなう。

研究成果
(2件)

すべて学会発表 (2件) (うち国際学会 1件)

[学会発表] Minna De Honkoku: Learning-Driven Crowdsourced Transcription Of Pre-Modern Japanese Earthquake Records2018
- 著者名/発表者名
  Yuta Hashimoto, et al.
- 学会等名
  Digital Humanities 2018
- 国際学会
[学会発表] 日本語文献史料の構造化記述のための軽量マークアップ言語の開発2018
- 著者名/発表者名
  橋本雄太, 宮川真弥
- 学会等名
  人文科学とコンピューターシンポジウム2018