• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 前のページに戻る

近代書籍からの知の再構築

研究課題

研究課題/領域番号 20H04483
研究種目

基盤研究(B)

配分区分補助金
応募区分一般
審査区分 小区分90020:図書館情報学および人文社会情報学関連
研究機関奈良女子大学

研究代表者

城 和貴  奈良女子大学, 生活環境科学系, 教授 (90283928)

研究分担者 高田 雅美  奈良女子大学, 生活環境科学系, 講師 (20397574)
石川 由羽  滋賀大学, データサイエンス学系, 助教 (20814370)
研究期間 (年度) 2020-04-01 – 2023-03-31
研究課題ステータス 完了 (2022年度)
配分額 *注記
17,680千円 (直接経費: 13,600千円、間接経費: 4,080千円)
2022年度: 5,330千円 (直接経費: 4,100千円、間接経費: 1,230千円)
2021年度: 6,110千円 (直接経費: 4,700千円、間接経費: 1,410千円)
2020年度: 6,240千円 (直接経費: 4,800千円、間接経費: 1,440千円)
キーワードデジタルアーカイブ / 文字認識 / レイアウト解析 / ディープラーニング / ニューロ翻訳 / 近代書籍文字認識 / 深層距離学習 / 近代文語体自動翻訳 / CRAFT / 解像度ピラミッド / 自動テキスト化 / 自動翻訳 / 機械学習 / 近代文語体現代口語体自動翻訳 / 深層学習 / 低出現頻度文字クローラ / 汎用レイアウト解析 / 相互翻訳
研究開始時の研究の概要

本研究グループはこれまでに近代書籍文字認識手法と近代文語体現代口語体相互自動翻訳手法、特定の近代書籍に特化したレイアウト解析手法に関する基礎研究を行ってきた。本研究では、低出現頻度文字クローラを利用した近代書籍文字認識、ニューラル機械翻訳による近代文語体現代口語体相互自動翻訳、複数のレイアウト解析技術をハイブリッドに融合した近代書籍用レイアウト解析の三研究課題に取りくむ。さらにこれらの研究成果で実際に「近代書籍からの知の再構築」ができることを示すために、米国スタンフォード大学フーバー研究所で整備が進められている邦字新聞デジタルコレクションに本研究成果を適用する。

研究成果の概要

近代書籍文字認識ではレイアウト解析において新聞等に見られる多段多見出し出版物に適した手法を提案し有効性を確認した。認識部分では学習データをクローリングで取り出す手法を実装し、人間が手作業で行うより数百倍早く収集できる環境を構築した。また、GANを利用して、特定の近代書籍出版者のデータにない文字種を人工的に作り出す手法を確立した。さらに認識エンジンとして、それまでのCNNから深層距離学習に変更することで、99%以上の認識率を確認し、近代書籍文字認識研究の完成を得た。近代文語体から現代口語体への機械翻訳では、学習データ対を6万文整備し、Transformerで十分な精度の翻訳が可能なことを示した。

研究成果の学術的意義や社会的意義

本研究成果は画像としてアーカイブ化された近代書籍のテキスト化を自動的に行えることを示したもので、テキスト化された近代文語体の文章を現代口語体に自動翻訳することで、近代書籍の知を再構成して利用することが可能となる。現在スタンフォード大学フーバー研究所でアーカイブ化が進められている邦字新聞(明治以降の日本人移民が現地で出版した日本語の新聞の総称)に本研究成果が利用される予定である。また、本研究の知見は令和6年度に公開される国会図書館のNDLOCR2で一部利用されており、NDLOCR2では近代書籍に対応した初めてのOCRとなる。

報告書

(4件)
  • 2022 実績報告書   研究成果報告書 ( PDF )
  • 2021 実績報告書
  • 2020 実績報告書
  • 研究成果

    (15件)

すべて 2023 2022 2021 2020

すべて 雑誌論文 (7件) (うち査読あり 5件) 学会発表 (8件) (うち国際学会 1件)

  • [雑誌論文] 多段組多サイズ見出しで構成される近代書籍のレイアウト解析2023

    • 著者名/発表者名
      飯田紗也香,竹本有紀,石川由羽,髙田雅美,城和貴
    • 雑誌名

      情報処理学会論文誌数理モデル化と応用

      巻: -

    • 関連する報告書
      2022 実績報告書
    • 査読あり
  • [雑誌論文] Application of Deep Metric Learning to Early-modern Japanese Printed Character Recognition2023

    • 著者名/発表者名
      1.Norie Koiso, Yuki Takemoto, Sayaka Iida, Yu Ishikawa, Masami Takata, Kazuki Joe
    • 雑誌名

      Proceedings of The 2022 International Conference on Parallel and Distributed Processing Techniques and Applications

      巻: -

    • 関連する報告書
      2022 実績報告書
    • 査読あり
  • [雑誌論文] Translating Early-modern Written Style into Current Colloquial Style in Hoji Shinbun2023

    • 著者名/発表者名
      2.Honoka Nishikawa, Yuki Takemoto, Sayaka Iida, Yu Ishikawa, Masami Takata, Kaoru Ueda, Kazuki Joe
    • 雑誌名

      Proceedings of The 2022 International Conference on Parallel and Distributed Processing Techniques and Applications

      巻: -

    • 関連する報告書
      2022 実績報告書
    • 査読あり
  • [雑誌論文] 特定の近代書籍出版者における低出現頻度文字種の獲得方法2022

    • 著者名/発表者名
      竹本有紀,石川由羽,高田雅美,城和貴
    • 雑誌名

      情報処理学会論文誌数理モデル化と応用

      巻: -

    • 関連する報告書
      2021 実績報告書
    • 査読あり
  • [雑誌論文] Crawling Low Appearance Frequency Characters Images for Early-Modern Japanese Printed Character Recognition2021

    • 著者名/発表者名
      Nanami Fujisaki, Yu Ishikawa, Masami Takata, Kazuki Joe
    • 雑誌名

      Proceeding of 2020 PDPTA (in press)

      巻: -

    • 関連する報告書
      2020 実績報告書
    • 査読あり
  • [雑誌論文] 近代書籍における文字切り出し手法の検討2021

    • 著者名/発表者名
      飯田 紗也香 , 竹本 有紀 , 石川 由羽 , 髙田 雅美 , 城 和貴
    • 雑誌名

      情報処理学科数理モデル化と問題解決研究会報告

      巻: 2020-MPS-132(4) ページ: 1-6

    • 関連する報告書
      2020 実績報告書
  • [雑誌論文] 邦字新聞における近代文語体と現代口語体の自動翻訳の検討2020

    • 著者名/発表者名
      稲見 郁乃 , 竹本 有紀 , 石川 由羽 , 高田 雅美 , 上田 薫 , 城 和貴
    • 雑誌名

      情報処理学科数理モデル化と問題解決研究会報告

      巻: 2020-MPS-131(12) ページ: 1-6

    • 関連する報告書
      2020 実績報告書
  • [学会発表] 近代書籍文字認識に対応した誤字検出2022

    • 著者名/発表者名
      福元春奈, 竹本有紀, 石川由羽, 高田雅美, 城和貴
    • 学会等名
      情報処理学会数理モデル化と問題解決研究会
    • 関連する報告書
      2022 実績報告書
  • [学会発表] 近代書籍のためのCRAFTを用いたレイアウト解析手法2022

    • 著者名/発表者名
      飯田 紗也香
    • 学会等名
      情報処理学会数理モデル化と問題解決研究会
    • 関連する報告書
      2021 実績報告書
  • [学会発表] 教師なし学習を用いた近代文語体と現代口語体の相互翻訳の検討2021

    • 著者名/発表者名
      藤井 千香子
    • 学会等名
      情報処理学会数理モデル化と問題解決研究会
    • 関連する報告書
      2021 実績報告書
  • [学会発表] 近代書籍文字認識に有効なデータ拡張の一手法2021

    • 著者名/発表者名
      倉田 帆風
    • 学会等名
      情報処理学会数理モデル化と問題解決研究会
    • 関連する報告書
      2021 実績報告書
  • [学会発表] CycleGANを用いた近代書籍風文字の生成とそのデータ拡張への応用2021

    • 著者名/発表者名
      角張 凜
    • 学会等名
      情報処理学会数理モデル化と問題解決研究会
    • 関連する報告書
      2021 実績報告書
  • [学会発表] 近代書籍における文字切り出し手法の検討2021

    • 著者名/発表者名
      飯田 紗也香
    • 学会等名
      情報処理学科数理モデル化と問題解決研究会報告
    • 関連する報告書
      2020 実績報告書
  • [学会発表] Crawling Low Appearance Frequency Characters Images for Early-Modern Japanese Printed Character Recognition2020

    • 著者名/発表者名
      Nanami Fujisaki
    • 学会等名
      PDPTA2020
    • 関連する報告書
      2020 実績報告書
    • 国際学会
  • [学会発表] 邦字新聞における近代文語体と現代口語体の自動翻訳の検討2020

    • 著者名/発表者名
      稲見 郁乃
    • 学会等名
      情報処理学科数理モデル化と問題解決研究会報告
    • 関連する報告書
      2020 実績報告書

URL: 

公開日: 2020-04-28   更新日: 2024-01-30  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi