• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2018 Fiscal Year Annual Research Report

Recognizing Japanese brush script in image

Research Project

Project/Area Number 16K12545
Research InstitutionNational Institute of Japanese Literature

Principal Investigator

野本 忠司  国文学研究資料館, 研究部, 准教授 (20321557)

Co-Investigator(Kenkyū-buntansha) 相田 満  国文学研究資料館, 研究部, 准教授 (00249921)
Project Period (FY) 2016-04-01 – 2019-03-31
Keywords文字画像認識 / 深層学習 / くずし字
Outline of Annual Research Achievements

本年度は二つの文字画像データセットを用い,認識モデルを構築し有効性を検証した.ひとつは,国立情報学研究所人文学オープンデータセンターから公開されているKuzushiji-Kanjiと呼ばれるくずし字画像データ(3,832文字),もうひとつは.KanjiVG(http://kanjivg.tagaini.net/)と呼ばれるベクトルフォントでエンコードされた現代漢字の画像データ(11,457文字)である.
主にサイクルガン(CycleGan)をベースにしたモデルの検討を行った.基本的なアイディアは,現代漢字からくずし字を生成した後,その画像と目標のくずし字の近さに基づいてくずし字の認識を行おうというものである.ベースラインとして単純なクラスタリング(K-Means)を用意して,サイクルガンとの比較を行った.その結果,ベースラインの約70%に対して,サイクルガンは30%程度の性能しか得られないことが確認された.つまり,現状では今回のように対象文字の種類が多い場合,深層学習よりくずし字のサンプルをベースにした画像マッチングの方がより良いパフォーマンスが得られることを示唆する結果となった.
何れにせよ,これまでに用いたデータは基本的に文字単位で切り出された画像を対象にしているため,実際のくずし字認識の適用対象(文書画像)とかなり乖離していると言う問題がある.将来的には今回の結果を踏まえ,すべての個別文字の認識を目指すのではなく,くずし字生成によるキーワードスポッティングなども視野に入れて,検討を進めて行きたい.

  • Research Products

    (1 results)

All 2018

All Journal Article (1 results) (of which Int'l Joint Research: 1 results,  Peer Reviewed: 1 results,  Open Access: 1 results)

  • [Journal Article] Resolving Citation Links with Neural Networks2018

    • Author(s)
      Tadashi Nomoto
    • Journal Title

      Frontiers in Research Metrics and Analysis

      Volume: 0 Pages: 1-18

    • DOI

      https://doi.org/10.3389/frma.2018.00031

    • Peer Reviewed / Open Access / Int'l Joint Research

URL: 

Published: 2019-12-27  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi