2021 年度実施状況報告書

江戸時代の日本語の大規模テキストコーパスを構築し、崩し字認識に活用する研究

研究課題

研究課題/領域番号	21K12008
研究機関	群馬大学
研究代表者	長井歩群馬大学, 大学院理工学府, 助教 (70375567)
研究期間 (年度)	2021-04-01 – 2026-03-31
キーワード	くずし字認識 / 文字認識 / 深層学習 / 翻刻 / テキストコーパス
研究実績の概要	深層学習の技術の登場により、それまでまともに認識できなかった古文書のくずし字を認識できるようになった。版本（出版された本）に限れば約95％の正解率という実用レベルに達している。しかし版本のくずし字はくずし字の中では読みやすい。教育レベルが低い人も多い一般大衆にとって読みやすいように、清書専門の職人が工夫して書いているからである。具体的には、漢字より平仮名が多かったり、変体仮名の種類が少なかったり、くずしの程度が軽かったりする。それに対し、書簡や和歌の肉筆の文書のくずし字の中には、版本と違い読みにくい文字がたくさんある。それらの多くはプライベートな文書で、想定している読み手が読めさえすれば良いというスタンスで書かれており、一般大衆向けの版本の人工的なくずし字と違い、自由で多様なくずし字となっている。このような肉筆のくずし字認識の正解率は、場合によっては7割前後にまで落ちることもあり、今後のくずし字認識の主要なターゲットであると言える。肉筆のくずし字認識の正解率を上げるための前提として、大規模なテキストコーパスが不可欠であると考えた。深層学習による文字認識を牽引している英語の文字認識も、現代中国語の文字認識も、膨大なテキストコーパスを利用している。具体的には、GPT-3が用いる英語のテキストコーパスは約5000億語、現代中国語のテキストコーパスは6000万字以上である。それに対し、くずし字認識のための近世日本語の大規模テキストコーパスは（ごく一部のジャンルや小規模なものを除き）我々の知る限り存在しない。これに対し我々は今年度、変体仮名などにも対応したOCRを開発し、過去に古文書を翻刻し活字として既に出版された書籍から抽出することによって大規模なテキストコーパスを作成した。現在までに書籍230冊から3800万字以上のテキストを抽出した。
現在までの達成度 (区分)	現在までの達成度 (区分) 3: やや遅れている理由データが膨大なため、データをコピーするだけでも想定外に時間がかかること。また、国際会議などで発表するためには、日本の古文書だけでなく英語の認識に対しても効果があることを示したいが、英語の認識のための環境を作るだけでも非常に時間がかかってしまった。更には、膨大なテキストコーパスを利用した深層学習を行うと結果が出るまでに時間がかかるので、結果を踏まえて改善するPDCAの1回のサイクルを回すのに非常に時間がかかることも大きい。
今後の研究の推進方策	テキストコーパスの規模をもっと大規模化できそうなら大規模化する。その方向性とは別に、大規模テキストコーパスを活かして、肉筆のくずし字の認識精度を上げるための研究に取り組みたい。