• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 課題ページに戻る

2019 年度 実績報告書

人工知能による日本の歴史的典籍の自動翻刻システムの構築およびその活用に関する研究

研究課題

研究課題/領域番号 16K02433
研究機関豊田工業高等専門学校

研究代表者

早坂 太一  豊田工業高等専門学校, 情報工学科, 准教授 (50314092)

研究分担者 加藤 弓枝  鶴見大学, 文学部, 准教授 (10413783)
大野 亙  豊田工業高等専門学校, 電気・電子システム工学科, 准教授 (60321444)
研究期間 (年度) 2016-04-01 – 2020-03-31
キーワードくずし字 / テキスト検出 / 文字認識 / 深層学習 / スタンドアロン
研究実績の概要

国文学研究資料館により平成26年度より開始された「日本語の歴史的典籍の国際共同研究ネットワーク構築計画」[1]では,研究基盤整備として約30万点の歴史的典籍を画像データ化し,既存の書誌情報データと統合させたデータベースの構築を行っている.あらゆる分野の書籍が含まれる膨大な画像データを有効活用できれば,例えば津波や噴火等の天変地異の歴史を教訓とした防災研究のように,人文科学のみならず自然科学系分野を融合させた研究の展開も期待される.しかしながら多くの研究者にとっては,それらに書かれている文字が「くずし字」であることが障壁となる.
古典籍におけるくずし字翻刻に関する研究では深層学習を利用したアプローチが盛んである.本研究では,国文学研究資料館が作成し,ROIS-DS人文学オープンデータ共同研究センターが公開している110万字を超えるくずし字データセットにデジタルアーカイブシステムADEAC内の古典籍画像から抽出した字形データ約26,000字を加えて,16ビットUnicodeにくずし字を分類する畳み込みニューラルネットワークの学習を行った.その結果,版本のテストデータではそれほど影響が見られなかった認識率について,写本のテストデータに対しては明らかな向上が見られた.この学習モデルを利用して,古典籍の画像データを読み込み,マウスや指で選択された1文字分のくずし字を翻刻するWWWアプリケーションを開発し,公開した.
さらに,そのモデルをシングルボードコンピュータRaspberry Piに実装することで,複数のくずし字を一括して自動検出し,認識を行うことのできるスタンドアロンシステムを開発した.インターネットへの接続を必要としないため,小中学校での教育や古民家での調査などの場面で手軽に利用でき,くずし字翻刻の支援ツールとして活躍することが期待できる.

備考

中日新聞2020年1月27日夕刊9面にて研究成果が紹介された。
「くずし字AIで活字に 豊田高専 翻刻システム開発」

  • 研究成果

    (3件)

すべて 2020 2019

すべて 学会発表 (3件)

  • [学会発表] ADEACの画像データを利用したくずし字認識AIの開発と組み込みシステムへの実装2020

    • 著者名/発表者名
      早坂太一,竹内正広,大野亙,加藤弓枝,山本和明,石間衛,石川徹也
    • 学会等名
      第25回公開シンポジウム「人文科学とデータベース 」
  • [学会発表] ディープラーニングによるくずし字認識組み込みシステムの開発2019

    • 著者名/発表者名
      竹内正広,早坂太一,大野亙,加藤弓枝,山本和明,石間衛,石川徹也
    • 学会等名
      2019年度人工知能学会全国大会(第33回)
  • [学会発表] くずし字の検出および認識を行う組み込みシステムの開発2019

    • 著者名/発表者名
      竹内正広, 早坂太一, 大野亙, 加藤弓枝, 山本和明, 石川徹也
    • 学会等名
      人文科学とコンピュータシンポジウム「じんもんこん2019」

URL: 

公開日: 2021-01-27  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi