• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 課題ページに戻る

2020 年度 実績報告書

近代書籍からの知の再構築

研究課題

研究課題/領域番号 20H04483
研究機関奈良女子大学

研究代表者

城 和貴  奈良女子大学, 生活環境科学系, 教授 (90283928)

研究分担者 高田 雅美  奈良女子大学, 生活環境科学系, 講師 (20397574)
石川 由羽  滋賀大学, データサイエンス教育研究センター, 助教 (20814370)
研究期間 (年度) 2020-04-01 – 2023-03-31
キーワード低出現頻度文字クローラ / 近代文語体現代口語体自動翻訳 / 汎用レイアウト解析
研究実績の概要

本研究課題では、低出現頻度文字クローラを利用した近代書籍文字認識、教師なしニューラル機械翻訳機による近代文語体現代口語体相互自動翻訳、複数のレイアウト解析技術をハイブリッドに融合した近代書籍用レイアウト解析の三研究課題に取り組み、さらにこれらの研究成果で実際に「近代書籍からの知の再構築」ができることを示すために、邦字新聞デジタルコレクション(https://hojishinbun.hoover.org)に本研究成果を適用することを目的としている。今年度の研究成果として、低出現頻度文字クローラの実装を完成し、国際学会にて発表すると同時に、その運用を試験的に稼働している。またにゅーらる機械翻訳では、教師なしの方は予想通り困難であるものの、教師ありに関しては邦字新聞の記事の文字起こしと現代文翻訳の対訳データを整備し、約2万セットを確保した。このデータセットは来年度に実際に学習データとして利用して翻訳の精度を検証する予定である。同時に教師なしニューラル機械翻訳のデータに追加することで精度が向上するか試してみる予定である。複数のレイアウト解析技術を融合するサブテーマに関しては、CRAFTを解像度ピラミッドを使って階層的に適用することで、ほぼ100%の文字切り出しが見込まれた。来年度には論文として発表する予定である。邦字新聞への適用に関しては、近代文語体現代口語体相互自動翻訳の対訳データを本学文学部の学生をバイトで雇うことで2万対を整備することができた。

現在までの達成度 (区分)
現在までの達成度 (区分)

1: 当初の計画以上に進展している

理由

当初予定してた3サブテーマのうち、1)近代書籍文字認識では、低出現頻度クローラならびに近代書籍文字認識サーバの実装を完成させ、後者に関してはWebアプリ化することで誰でも利用可能となる仕組みをほぼ完成させた。また、当初計画になかったが、近代書籍文字認識のためのデータ拡張技術に目途がついたため、これを来年度実装を行う予定である。2)近代文語体現代口語体相互自動翻訳に関しては、対訳データの整備を本学文学部学生をバイトで雇うことで充実させることができた。まだ実際に学習させるまでに至っていないが、2万対訳データを使うことで実用化に近いものが見込まれる。3)近代書籍用レイアウト解析に関しては、当初の計画を変更し、CRAFTを解像度ピラミッドで使うことでテストデータに対して100%の認識を得ることが予備実験で明らかになった。これは学習データを人工的に作る(文章の内容はランダム)ことで学習を可能とした。以上の主要3テーマ以外に、4)邦字新聞への適用というサブテーマを計画ではあげていたが、2)の学習データを邦字新聞から取ってくることで、邦字新聞への実際の適用に道筋をつけることができた。

今後の研究の推進方策

本研究は過去12年に渡る研究テーマの一部であるが、近代書籍の活版印刷文字認識に対する学習データをいかにして確保するかというオープンプロブレムがあった。すなわち、書籍の文字には低出現頻度文字種があり、その頻度はジップの法則に従うというものである。そのため、出現頻度上位2000以下の文字種に対しては、低出現頻度文字クローラを開発したものの、JIS第2水準相当まで十分なセット数(数百セット)集めることは不可能である。一方、近年GANを利用した画像生成研究がさかんに行われており、本研究グループでも特定の出版者の未知フォントを既知フォントから自動生成する研究を行ってきたが、我々の目的は未知フォントを正確に生成することではなく、それらのデータの特徴を代表するようなデータ拡張を行えば良いことに気づき、StyleGANやConditionalGANを用いた方法で、データ拡張可能である予備実験結果を得ることができた。来年度はこれらの予備実験結果をベースにデータ拡張を目指す。さらに、StyleGANの利用を検討していて、これが任意の漢字の偏や旁を抽出可能であることが判明した。我々は出現頻度の高い文字に関しては1パスで認識を行うが、出現頻度の低い文字に関しては、偏や旁の組み合わせで認識を複数パスで行うという事実があるため、この人間の認識過程を再現する研究に着手する予定である。これが実現すれば、どのように複雑な極低出現頻度文字であっても100%認識できるシステムが構築可能と期待する。すなわち、文字認識研究における最後のブレークスルーを得ることが可能と思われる。

  • 研究成果

    (6件)

すべて 2021 2020

すべて 雑誌論文 (3件) (うち査読あり 1件) 学会発表 (3件) (うち国際学会 1件)

  • [雑誌論文] Crawling Low Appearance Frequency Characters Images for Early-Modern Japanese Printed Character Recognition2021

    • 著者名/発表者名
      Nanami Fujisaki, Yu Ishikawa, Masami Takata, Kazuki Joe
    • 雑誌名

      Proceeding of 2020 PDPTA (in press)

      巻: - ページ: -

    • 査読あり
  • [雑誌論文] 近代書籍における文字切り出し手法の検討2021

    • 著者名/発表者名
      飯田 紗也香 , 竹本 有紀 , 石川 由羽 , 髙田 雅美 , 城 和貴
    • 雑誌名

      情報処理学科数理モデル化と問題解決研究会報告

      巻: 2020-MPS-132(4) ページ: 1-6

  • [雑誌論文] 邦字新聞における近代文語体と現代口語体の自動翻訳の検討2020

    • 著者名/発表者名
      稲見 郁乃 , 竹本 有紀 , 石川 由羽 , 高田 雅美 , 上田 薫 , 城 和貴
    • 雑誌名

      情報処理学科数理モデル化と問題解決研究会報告

      巻: 2020-MPS-131(12) ページ: 1-6

  • [学会発表] 近代書籍における文字切り出し手法の検討2021

    • 著者名/発表者名
      飯田 紗也香
    • 学会等名
      情報処理学科数理モデル化と問題解決研究会報告
  • [学会発表] Crawling Low Appearance Frequency Characters Images for Early-Modern Japanese Printed Character Recognition2020

    • 著者名/発表者名
      Nanami Fujisaki
    • 学会等名
      PDPTA2020
    • 国際学会
  • [学会発表] 邦字新聞における近代文語体と現代口語体の自動翻訳の検討2020

    • 著者名/発表者名
      稲見 郁乃
    • 学会等名
      情報処理学科数理モデル化と問題解決研究会報告

URL: 

公開日: 2021-12-27  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi