• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 課題ページに戻る

2018 年度 実績報告書

近代書籍からの知の抽出

研究課題

研究課題/領域番号 17H01829
研究機関奈良女子大学

研究代表者

城 和貴  奈良女子大学, 生活環境科学系, 教授 (90283928)

研究分担者 高田 雅美  奈良女子大学, 生活環境科学系, 講師 (20397574)
研究期間 (年度) 2017-04-01 – 2020-03-31
キーワードデジタルアーカイブ / 文字認識 / 深層学習 / 言語翻訳
研究実績の概要

今年度は近代書籍用OCRのデータ収集を効率よく行うためのWebアプリ(平成26年度科研Bで試験実装)の再実装を行う予定であったが、再実装を行うための専任の研究員の就職が決まってしまい、再実装を行うための調査に終わってしまった。来年度はWebアプリの再実装を、今年度の概要設計をベースに実際に行う。また、帝国議会議事録の自動テキスト化に関しては、レイアウト解析の手法を2種類提案し学会で口頭発表を行った。深層学習を用いた未知字体生成に関しては、ニューラルネットの構成方法と学習パラメータの最適化に関して研究を進展させ、その成果を来年度夏の国際会議で発表の予定である。近代書籍の文語体文章を現代口語に自動変換するサブテーマでは、当初対象を森鴎外の作品に絞ってTensor Flowのseq2seqを適用したが、その結果は満足のいくものではなかった。そこでそれ以外の複数変換器を検討して試したところ、Convseq2seqがかなり満足のいく変換器であることが分かった。来年度はこの手法をベースに翻訳精度を上げる。また、その結果を帝国議会議事録のデータに適用してみる。

現在までの達成度 (区分)
現在までの達成度 (区分)

2: おおむね順調に進展している

理由

Web収集支援アプリの開発は専任の研究員(ポスドク)を確保したものの、6月には9月からの就職先が決まってしまい、旧システムの問題点の洗い出ししかできなかった。帝国議会議事録の自動テキスト化に関しては、最も困難であるレイアウト解析が、深層学習を使って可能であることが分かった。大きな進展と言える。深層学習を用いた未知字体生成に関しては、昨年度に可能であることは示せたが性能が芳しくなかったため、他の手法を検討していたところ、当初の手法でニューラルネットの構成と学習パラメータを試行錯誤することで大幅に性能を上げることができた。これも大きな進展と言える。近代書籍の文語体文章を現代口語に自動変換するサブテーマでは、数種類の手法を試したが、まだ実用に耐えうるものは発見されていない。これはそもそも文語体文章の現代語訳が非常に限られているからであり、非常に難しい課題と言える。

今後の研究の推進方策

Web収集支援アプリが完成すれば学習データが容易に集まることになるので近代書籍用OCRの実用化が一気に加速する。セマンティックセグメンテーションを利用した帝国議会議事録のレイアウト解析が完成すれば、各種ドメインごとに適用することでレイアウト解析から文字認識までの自動化が可能となる。文語体文章から口語体への翻訳は小規模なデータからの学習方法を検討してみる。

  • 研究成果

    (3件)

すべて 2018

すべて 雑誌論文 (1件) (うち査読あり 1件) 学会発表 (2件)

  • [雑誌論文] Automatic Font Generation for Early-Modern Japanese Printed Books2018

    • 著者名/発表者名
      Yuki Takemoto, Yu Ishikawa, Masami Takata, Kazuki Joe
    • 雑誌名

      The 2018 International Conference on Parallel and Distributed Processing Techniques and Applications

      巻: On-site Edition ページ: 326-332

    • 査読あり
  • [学会発表] 帝国議会会議録におけるレイアウト解析手法の比較2018

    • 著者名/発表者名
      飯田 紗也香,竹本 有紀,石川 由羽,高田 雅美,城 和貴
    • 学会等名
      情報処理学会数理モデル化と問題解決研究会
  • [学会発表] 近代文語体と現代口語体の自動翻訳への試み2018

    • 著者名/発表者名
      林 英里香,竹本 有紀,石川 由羽,高田 雅美,城 和貴
    • 学会等名
      情報処理学会数理モデル化と問題解決研究会

URL: 

公開日: 2019-12-27  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi