2023 Fiscal Year Research-status Report
Study to generate a huge text corpus of Japanese in Edo-period and to recognize historical cursive
Project/Area Number |
21K12008
|
Research Institution | Gunma University |
Principal Investigator |
長井 歩 群馬大学, 情報学部, 助教 (70375567)
|
Project Period (FY) |
2021-04-01 – 2026-03-31
|
Keywords | くずし字認識 / 文字認識 / 深層学習 / 翻刻 / テキストコーパス |
Outline of Annual Research Achievements |
当該年度は膨大なデータを保存していたハードディスクが破損し、専門業者に依頼したものの今もって全く復旧できておらず、研究の遂行に大いに手戻りが生じている。最近になってようやく昨年度末時点に近い状態に戻せた状況にある。データそのものより、モチベーションの低下の方が深刻かもしれない。研究データ以外にも多種多様なデータ・資料・文書を失っており、本研究課題の申請時の書類も消失し、当初想定していた研究計画すら確認できない状況である。 一言にくずし字と言っても、その読みやすさの難易度はピンキリである。版本(出版された本)のくずし字に限ると、数年前の技術だけでも約95%の正解率を達成できる。一般庶民向けの版本は清書専門の職人が工夫しながら書いているためである。一方で、書簡や和歌のくずし字は専門家ですら苦慮し、虫喰いの影響もあって読めない文字が最後までチラホラ残ってしまうこともザラである。その中で我々は(書簡を含む)肉筆のくずし字をターゲットとしている。肉筆のくずし字は書いた本人とその周囲の関係者が読めればよいとの姿勢で書かれており、このようなくずし字の正解率は我々の試した限りでも7割前後にまで落ちてしまうことすらあり、古文書によってはまともに読むことができない。このような肉筆のくずし字認識の正解率を上げるためには、大規模なテキストコーパスによる学習が不可欠と考えている。昨年度までに我々が構築した近世日本語テキストコーパスは翻刻本660冊分、文字数にして1億字以上に及ぶ。また、仲間と共に趣味と実益を兼ねて読み進めている古文書もあり、そのデータも少ないながら役立てる予定である。今年度ハードディスクの破損のために深刻な打撃を受けたが、最近になってようやく復旧した。
|
Current Status of Research Progress |
Current Status of Research Progress
4: Progress in research has been delayed.
Reason
研究実績の概要欄にも記入したように、当該年度は膨大なデータを保存していたハードディスクが破損し、専門業者に依頼したものの今もって全く復旧できておらず、研究の遂行に大いに手戻りが生じている。最近になってようやく昨年度末時点に近い状態に戻せた状況にある。データそのものより、モチベーションの低下の方が深刻かもしれない。研究データ以外にも多種多様なデータ・資料・文書を失っており、本研究課題の申請時の書類も消失し、当初想定していた研究計画すら確認できない状況にある。そのため、研究の遂行に大いに遅れが生じている。 我々が構築している近世日本語テキストコーパスは1億字以上という前代未聞の規模である。さらに内容的にも、版本以外の古文書を中心としている点が売りである。ボリュームとしてはおそらく武家文書が多いが、市井の記録・風聞も多数収集している。書簡のくずし認識は単に難易度が高いだけでなく、独特の表現も頻出するので、それを見越して書簡集も意識して収集した。このように、従来にない量と質と多様性に富むテキストコーパスなのが強みなので、今後はこれを何とか活かしていきたい。
|
Strategy for Future Research Activity |
今後の予定として、まずは大規模言語モデルを構築する。当初(小規模な)BERTを想定していたが、バージョンによって内部のデータ構造が頻繁に変わっているので今後取り扱いにくい状況が生じることを懸念し、もっと新しい言語モデルでソースコードも完全に公開されているものを利用することを検討している。言語モデルの学習が済んだら、文章としての文脈を活かしたくずし字認識に挑戦する予定である。
|