2019 Fiscal Year Annual Research Report

Study on the development and the utilization of automatic interpretation system of Japanese ancient documents

Research Project

Project/Area Number	16K02433
Research Institution	National Institute of Technology, Toyota College
Principal Investigator	早坂太一豊田工業高等専門学校, 情報工学科, 准教授 (50314092)
Co-Investigator(Kenkyū-buntansha)	加藤弓枝鶴見大学, 文学部, 准教授 (10413783) 大野亙豊田工業高等専門学校, 電気・電子システム工学科, 准教授 (60321444)
Project Period (FY)	2016-04-01 – 2020-03-31
Keywords	くずし字 / テキスト検出 / 文字認識 / 深層学習 / スタンドアロン
Outline of Annual Research Achievements	国文学研究資料館により平成26年度より開始された「日本語の歴史的典籍の国際共同研究ネットワーク構築計画」[1]では，研究基盤整備として約30万点の歴史的典籍を画像データ化し，既存の書誌情報データと統合させたデータベースの構築を行っている．あらゆる分野の書籍が含まれる膨大な画像データを有効活用できれば，例えば津波や噴火等の天変地異の歴史を教訓とした防災研究のように，人文科学のみならず自然科学系分野を融合させた研究の展開も期待される．しかしながら多くの研究者にとっては，それらに書かれている文字が「くずし字」であることが障壁となる．古典籍におけるくずし字翻刻に関する研究では深層学習を利用したアプローチが盛んである．本研究では，国文学研究資料館が作成し，ROIS-DS人文学オープンデータ共同研究センターが公開している110万字を超えるくずし字データセットにデジタルアーカイブシステムADEAC内の古典籍画像から抽出した字形データ約26,000字を加えて，16ビットUnicodeにくずし字を分類する畳み込みニューラルネットワークの学習を行った．その結果，版本のテストデータではそれほど影響が見られなかった認識率について，写本のテストデータに対しては明らかな向上が見られた．この学習モデルを利用して，古典籍の画像データを読み込み，マウスや指で選択された１文字分のくずし字を翻刻するWWWアプリケーションを開発し，公開した．さらに，そのモデルをシングルボードコンピュータRaspberry Piに実装することで，複数のくずし字を一括して自動検出し，認識を行うことのできるスタンドアロンシステムを開発した．インターネットへの接続を必要としないため，小中学校での教育や古民家での調査などの場面で手軽に利用でき，くずし字翻刻の支援ツールとして活躍することが期待できる．
Remarks	中日新聞2020年1月27日夕刊9面にて研究成果が紹介された。「くずし字ＡＩで活字に豊田高専翻刻システム開発」

Research Products
(3 results)

All Presentation (3 results)

[Presentation] ADEACの画像データを利用したくずし字認識AIの開発と組み込みシステムへの実装2020
- Author(s)
  早坂太一，竹内正広，大野亙，加藤弓枝，山本和明，石間衛，石川徹也
- Organizer
  第25回公開シンポジウム「人文科学とデータベース」
[Presentation] ディープラーニングによるくずし字認識組み込みシステムの開発2019
- Author(s)
  竹内正広，早坂太一，大野亙，加藤弓枝，山本和明，石間衛，石川徹也
- Organizer
  2019年度人工知能学会全国大会(第33回)
[Presentation] くずし字の検出および認識を行う組み込みシステムの開発2019
- Author(s)
  竹内正広, 早坂太一, 大野亙, 加藤弓枝, 山本和明, 石川徹也
- Organizer
  人文科学とコンピュータシンポジウム「じんもんこん2019」