研究課題/領域番号 |
21K12008
|
研究種目 |
基盤研究(C)
|
配分区分 | 基金 |
応募区分 | 一般 |
審査区分 |
小区分61030:知能情報学関連
|
研究機関 | 群馬大学 |
研究代表者 |
長井 歩 群馬大学, 大学院理工学府, 助教 (70375567)
|
研究期間 (年度) |
2021-04-01 – 2026-03-31
|
研究課題ステータス |
交付 (2022年度)
|
配分額 *注記 |
4,160千円 (直接経費: 3,200千円、間接経費: 960千円)
2025年度: 390千円 (直接経費: 300千円、間接経費: 90千円)
2024年度: 390千円 (直接経費: 300千円、間接経費: 90千円)
2023年度: 1,040千円 (直接経費: 800千円、間接経費: 240千円)
2022年度: 1,040千円 (直接経費: 800千円、間接経費: 240千円)
2021年度: 1,300千円 (直接経費: 1,000千円、間接経費: 300千円)
|
キーワード | くずし字認識 / 文字認識 / 深層学習 / 翻刻 / テキストコーパス / 崩し字 |
研究開始時の研究の概要 |
申請課題の究極の目的は、誰でも手軽に崩し字で書かれた古文書を自動的にテキスト化して読めるようにすることである。 現在崩し字認識の進歩にとって最大の障壁は大規模なテキストコーパスの欠如である。崩し字を文字として認識ができたとしても、現状では言語としての文法や構造を認識させるには至らない。 そこで、まずは大規模なテキストコーパスを構築する。大規模なテキストコーパスができれば、自然言語処理において金字塔を打ち立てたBERTのネットワークを取り入れ、自然言語としての文法や構造を含めた学習を行う道が開けてくる。また、誰でも研究成果の恩恵に浴すことができるように、webサービスとして公開したい。
|
研究実績の概要 |
深層学習の技術の登場により、それまでまともに認識できなかった古文書のくずし字を認識できるようになった。版本(出版された本)に限れば約95%の正解率という実用レベルに達している。しかし版本のくずし字はくずし字の中では読みやすい。教育レベルが低い人も多い一般大衆にとって読みやすいように、清書専門の職人が工夫して書いているからである。具体的には、漢字より平仮名が多かったり、変体仮名の種類が少なかったり、くずしの程度が軽かったりする。それに対し、書簡や和歌の肉筆の文書のくずし字の中には、版本と違い読みにくい文字がたくさんある。それらの多くはプライベートな文書で、想定している読み手が読めさえすれば良いというスタンスで書かれており、一般大衆向けの版本の人工的なくずし字と違い、自由で多様なくずし字となっている。このような肉筆のくずし字認識の正解率は、我々が試した限りでも7割前後にまで落ちることもあり、今後のくずし字認識の主要なターゲットであると認識している。 肉筆のくずし字認識の正解率を上げるための前提として、大規模なテキストコーパスが不可欠であると考えた。深層学習による文字認識を牽引している英語の文字認識も、現代中国語の文字認識も、膨大なテキストコーパスを利用している。具体的には、GPT-3.5が用いる英語のテキストコーパスは約4000億語、現代中国語のテキストコーパスは6000万字以上である。それに対し、くずし字認識のための近世日本語の大規模テキストコーパスは(ごく一部のジャンルや小規模なものを除き)我々の知る限り存在しない。 これに対し我々は昨年度開発した、変体仮名などにも対応したOCRを使い、古文書を翻刻し活字として既に出版された書籍430冊から6700万字以上テキストを抽出する成果を挙げた。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
4: 遅れている
理由
昨年度と合わせて、計660冊から1億字以上の近世文書テキストコーパスを構築した。これにより、LLM(大規模言語モデル)時代にふさわしい近世文書を対象とした研究を開始できる。ようやくスタートラインに立てたと自負する。 既存の近世日本語コーパスとしては、我々の知る限り版本(出版された本)、中でも洒落本や人情本などの庶民文化を反映した文芸作品が中心である。作品数で数十のオーダーである。また、くずし字の機械学習用に公表されているデータも存在しその中にテキストデータを含むが、これも版本が中心で、数十の作品数、文字数にして100万字程度である。 それに対し我々は、質と量で凌駕する近世日本語コーパスを構築した。まず、我々のコーパスは合計1億字以上という前代未聞の量である。さらに内容的にも、版本以外の文書ばかりを収集した。既存のコーパスには(おそらく含まれない)武家文書を意識的に収集した。具体的には、前橋藩の公式記録である『前橋藩松平家記録』や、東京大学史料編纂所で発行している『大日本古文書』や『大日本近世史料』などの歴史的史料を収集した。また、市井の事件や風評などを書き留めた『藤岡谷日記』や、『馬琴書翰集』などの書簡集もできる限り収集した。特に書簡はくずし字として難易度が高いので、今後書簡のくずし字を認識する際に効果が期待できる。さらに、群馬県や愛知県など県で編纂した県史に掲載されている近世文書も収集した。県史の近世文書は商業、災害、交通など様々なジャンルの文書が収集されており、文書の多様性を確保する上で効果的なはずである。 このように、我々の構築した近世日本語コーパスは質と量の両面で既存のものを凌駕した。その半面、テキストコーパス作りに集中しすぎたせいで、コーパスを利用した研究が立ち遅れている。
|
今後の研究の推進方策 |
まずは大規模テキストコーパスを活用してLLM(大規模言語モデル)を構築し、肉筆のくずし字の認識精度を向上させたい。
|