• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2016 Fiscal Year Research-status Report

人工知能による日本の歴史的典籍の自動翻刻システムの構築およびその活用に関する研究

Research Project

Project/Area Number 16K02433
Research InstitutionNational Institute of Technology, Toyota College

Principal Investigator

早坂 太一  豊田工業高等専門学校, 情報工学科, 准教授 (50314092)

Co-Investigator(Kenkyū-buntansha) 加藤 弓枝  豊田工業高等専門学校, 一般学科, 准教授 (10413783)
大野 亙  豊田工業高等専門学校, 電気・電子システム工学科, 准教授 (60321444)
Project Period (FY) 2016-04-01 – 2020-03-31
Keywords深層学習 / くずし字 / 文字認識 / WWWアプリケーション
Outline of Annual Research Achievements

国文学研究資料館古典籍共同研究事業センターにより構築が進められている「日本語の歴史的典籍データベース」は、これを有効活用することで、異分野を融合させた研究の展開も期待されるが、いかに資料が集積されたとしても、多くの研究者にとっては、書かれている文字が「くずし字」であることが障壁となる。本研究は、世界的に注目されている人工知能技術である、ディープラーニングを用いたくずし字の自動翻刻システムの構築を目的とする。
『日本古典籍字形データセット』をはじめとするオープンデータから6万字以上の変体仮名画像を利用してモデルを学習させた。そして、オープンデータとして公開されている「源氏物語」等、いくつかの歴史的典籍内の変体仮名に対して、ディープラーニングによる認識の精度を算出したところ、いずれも90%以上の結果を示すことができた。
また、古典籍の画像データを読み込み、マウス等で選択された1文字分の変体仮名を翻刻するWWWアプリケーションを作製した(http://vpac.toyota-ct.ac.jp/kuzushiji/)。読み込まれた画像に対し画像処理を施し、学習されたモデルに入力することで、平仮名ごとの認識確率が円グラフとして表示される。表示については、クライアント側の計算機環境に依存するが、サーバ側で1文字あたりの認識にかかる時間は約0.4秒であった。高性能なハードウェアやGPGPUを利用しなくとも、十分な演算速度による翻刻が実現できることが確認できた。

Current Status of Research Progress
Current Status of Research Progress

2: Research has progressed on the whole more than it was originally planned.

Reason

変体仮名の認識については、交付申請書内でも目標とした90%以上の精度を示すことができ、プロトタイプとしてではあるが、WWWアプリケーションとしての実現を達成できた。
また、学習に用いるくずし字画像については、国立情報学研究所からオープンデータとして提供されているものも合わせて、約10万字を抽出できている。
さらに、近隣の学校でのくずし字に関する出前授業の際に、どのようなアプリケーション・ソフトウェアを望むかといったアンケートも行い、仕様を策定している途中である。

Strategy for Future Research Activity

今後は、漢字を含めたくずし字の認識、ソフトウェアのプラグイン(Web API)化、複数のくずし字の切り分け、ソフトウェアだけでなく、ハードウェア(組込みシステム)としてのくずし字認識システムの開発などが、やるべきこととして挙げられる。

Causes of Carryover

主に国内旅費および謝金に繰り越しが生じた。これは、学会発表およびくずし字抽出のための謝金について、実際の支払額が少なかったことによるものである。物品費については,他の補助金により充当されたことが大きな原因である。

Expenditure Plan for Carryover Budget

今年度の学会発表のための旅費およびくずし字抽出のための謝金に利用する予定である。物品費については,ワークステーション購入に充てる予定である。

Remarks

中日新聞2016年11月2日朝刊13面「古典籍のくずし字翻刻 コンピュータ技術で楷書体に」という記事において、本研究の取り組みが紹介された。

  • Research Products

    (3 results)

All 2016 Other

All Presentation (2 results) Remarks (1 results)

  • [Presentation] ディープラーニングによる変体仮名の翻刻およびWWWアプリケーション開発の試み2016

    • Author(s)
      早坂太一, 大野亙, 加藤弓枝, 山本和明
    • Organizer
      情報処理学会人文科学とコンピュータシンポジウム
    • Place of Presentation
      国立国語研究所
    • Year and Date
      2016-12-10
  • [Presentation] ディープラーニングによる日本語の歴史的典籍におけるくずし字の認識およびWWWアプリケーション開発の試み2016

    • Author(s)
      早坂太一, 大野亙, 加藤弓枝, 山本和明
    • Organizer
      電子情報通信学会パターン認識・メディア理解研究会
    • Place of Presentation
      宮崎大学
    • Year and Date
      2016-10-20
  • [Remarks] 豊田高専・くずし字翻刻WWWサービス

    • URL

      http://vpac.toyota-ct.ac.jp/kuzushiji/

URL: 

Published: 2018-01-16  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi