2019 Fiscal Year Annual Research Report
Project/Area Number |
17H01829
|
Research Institution | Nara Women's University |
Principal Investigator |
城 和貴 奈良女子大学, 生活環境科学系, 教授 (90283928)
|
Co-Investigator(Kenkyū-buntansha) |
高田 雅美 奈良女子大学, 生活環境科学系, 講師 (20397574)
石川 由羽 滋賀大学, データサイエンス教育研究センター, 助教 (20814370)
|
Project Period (FY) |
2017-04-01 – 2020-03-31
|
Keywords | デジタルアーカイブ / 文字認識 / 深層学習 / 言語翻訳 |
Outline of Annual Research Achievements |
今年度は近代書籍用OCRのデータ収集を効率よく行うためのWebアプリ(平成26年度科研Bで試験実装)の実装を行った。また、近代書籍用文字認識エンジンは昨年度まで利用していた手法(3種類の特徴抽出手法と2種類の識別手法によるアンサンブル学習法)を一新し、新たにCNNと呼ばれるディープラーニングニューラルネットを使って実験を行ったところ、同じデータセットであれば同程度の認識率を出すことが判明した。この手法は特徴抽出も学習データによって最適化されるため、学習データが増えたときにはより良い性能を出すことが期待される。また、約2,000種類の近代書籍文字画像6セットを5セットを学習データ、1セットをテストデータで交差検定した結果は旧手法も新手法も認識率は90%程度であったのに対し、明朝体等の現代印字フォント30種類を加えてCNNに学習させたところ、98%の認識率を記録したので、これを国際会議で発表した。また、帝国議会議事録の自動テキスト化に関しては、昨年度国内研究会で発表を行った手法を実際の議事録に適用して概ね良い結果が得られたことを国際会議で発表した。ディープラーニングを用いた未知字体生成に関しては、ニューラルネットの構成方法と学習パラメータの最適化に関して国際会議で発表を行った。近代書籍の文語体文章を現代口語体に自動変換するサブテーマでは、Convsec2secを利用したもので、対象を森鴎外の作品に絞って学習を行い、その結果を帝国議会議事録データに適用してみたが、十分な性能が得られず、まだ検討の必要があることが判明した。
|
Research Progress Status |
令和元年度が最終年度であるため、記入しない。
|
Strategy for Future Research Activity |
令和元年度が最終年度であるため、記入しない。
|