Project/Area Number |
21K12008
|
Research Category |
Grant-in-Aid for Scientific Research (C)
|
Allocation Type | Multi-year Fund |
Section | 一般 |
Review Section |
Basic Section 61030:Intelligent informatics-related
|
Research Institution | Gunma University |
Principal Investigator |
長井 歩 群馬大学, 情報学部, 助教 (70375567)
|
Project Period (FY) |
2021-04-01 – 2026-03-31
|
Project Status |
Granted (Fiscal Year 2023)
|
Budget Amount *help |
¥4,160,000 (Direct Cost: ¥3,200,000、Indirect Cost: ¥960,000)
Fiscal Year 2025: ¥390,000 (Direct Cost: ¥300,000、Indirect Cost: ¥90,000)
Fiscal Year 2024: ¥390,000 (Direct Cost: ¥300,000、Indirect Cost: ¥90,000)
Fiscal Year 2023: ¥1,040,000 (Direct Cost: ¥800,000、Indirect Cost: ¥240,000)
Fiscal Year 2022: ¥1,040,000 (Direct Cost: ¥800,000、Indirect Cost: ¥240,000)
Fiscal Year 2021: ¥1,300,000 (Direct Cost: ¥1,000,000、Indirect Cost: ¥300,000)
|
Keywords | くずし字認識 / 文字認識 / 深層学習 / 翻刻 / テキストコーパス / 崩し字 |
Outline of Research at the Start |
申請課題の究極の目的は、誰でも手軽に崩し字で書かれた古文書を自動的にテキスト化して読めるようにすることである。 現在崩し字認識の進歩にとって最大の障壁は大規模なテキストコーパスの欠如である。崩し字を文字として認識ができたとしても、現状では言語としての文法や構造を認識させるには至らない。 そこで、まずは大規模なテキストコーパスを構築する。大規模なテキストコーパスができれば、自然言語処理において金字塔を打ち立てたBERTのネットワークを取り入れ、自然言語としての文法や構造を含めた学習を行う道が開けてくる。また、誰でも研究成果の恩恵に浴すことができるように、webサービスとして公開したい。
|
Outline of Annual Research Achievements |
当該年度は膨大なデータを保存していたハードディスクが破損し、専門業者に依頼したものの今もって全く復旧できておらず、研究の遂行に大いに手戻りが生じている。最近になってようやく昨年度末時点に近い状態に戻せた状況にある。データそのものより、モチベーションの低下の方が深刻かもしれない。研究データ以外にも多種多様なデータ・資料・文書を失っており、本研究課題の申請時の書類も消失し、当初想定していた研究計画すら確認できない状況である。 一言にくずし字と言っても、その読みやすさの難易度はピンキリである。版本(出版された本)のくずし字に限ると、数年前の技術だけでも約95%の正解率を達成できる。一般庶民向けの版本は清書専門の職人が工夫しながら書いているためである。一方で、書簡や和歌のくずし字は専門家ですら苦慮し、虫喰いの影響もあって読めない文字が最後までチラホラ残ってしまうこともザラである。その中で我々は(書簡を含む)肉筆のくずし字をターゲットとしている。肉筆のくずし字は書いた本人とその周囲の関係者が読めればよいとの姿勢で書かれており、このようなくずし字の正解率は我々の試した限りでも7割前後にまで落ちてしまうことすらあり、古文書によってはまともに読むことができない。このような肉筆のくずし字認識の正解率を上げるためには、大規模なテキストコーパスによる学習が不可欠と考えている。昨年度までに我々が構築した近世日本語テキストコーパスは翻刻本660冊分、文字数にして1億字以上に及ぶ。また、仲間と共に趣味と実益を兼ねて読み進めている古文書もあり、そのデータも少ないながら役立てる予定である。今年度ハードディスクの破損のために深刻な打撃を受けたが、最近になってようやく復旧した。
|
Current Status of Research Progress |
Current Status of Research Progress
4: Progress in research has been delayed.
Reason
研究実績の概要欄にも記入したように、当該年度は膨大なデータを保存していたハードディスクが破損し、専門業者に依頼したものの今もって全く復旧できておらず、研究の遂行に大いに手戻りが生じている。最近になってようやく昨年度末時点に近い状態に戻せた状況にある。データそのものより、モチベーションの低下の方が深刻かもしれない。研究データ以外にも多種多様なデータ・資料・文書を失っており、本研究課題の申請時の書類も消失し、当初想定していた研究計画すら確認できない状況にある。そのため、研究の遂行に大いに遅れが生じている。 我々が構築している近世日本語テキストコーパスは1億字以上という前代未聞の規模である。さらに内容的にも、版本以外の古文書を中心としている点が売りである。ボリュームとしてはおそらく武家文書が多いが、市井の記録・風聞も多数収集している。書簡のくずし認識は単に難易度が高いだけでなく、独特の表現も頻出するので、それを見越して書簡集も意識して収集した。このように、従来にない量と質と多様性に富むテキストコーパスなのが強みなので、今後はこれを何とか活かしていきたい。
|
Strategy for Future Research Activity |
今後の予定として、まずは大規模言語モデルを構築する。当初(小規模な)BERTを想定していたが、バージョンによって内部のデータ構造が頻繁に変わっているので今後取り扱いにくい状況が生じることを懸念し、もっと新しい言語モデルでソースコードも完全に公開されているものを利用することを検討している。言語モデルの学習が済んだら、文章としての文脈を活かしたくずし字認識に挑戦する予定である。
|