研究課題/領域番号 |
17H01829
|
研究機関 | 奈良女子大学 |
研究代表者 |
城 和貴 奈良女子大学, 生活環境科学系, 教授 (90283928)
|
研究分担者 |
高田 雅美 奈良女子大学, 生活環境科学系, 講師 (20397574)
石川 由羽 滋賀大学, データサイエンス教育研究センター, 助教 (20814370)
|
研究期間 (年度) |
2017-04-01 – 2020-03-31
|
キーワード | デジタルアーカイブ / 文字認識 / 深層学習 / 言語翻訳 |
研究実績の概要 |
今年度は近代書籍用OCRのデータ収集を効率よく行うためのWebアプリ(平成26年度科研Bで試験実装)の実装を行った。また、近代書籍用文字認識エンジンは昨年度まで利用していた手法(3種類の特徴抽出手法と2種類の識別手法によるアンサンブル学習法)を一新し、新たにCNNと呼ばれるディープラーニングニューラルネットを使って実験を行ったところ、同じデータセットであれば同程度の認識率を出すことが判明した。この手法は特徴抽出も学習データによって最適化されるため、学習データが増えたときにはより良い性能を出すことが期待される。また、約2,000種類の近代書籍文字画像6セットを5セットを学習データ、1セットをテストデータで交差検定した結果は旧手法も新手法も認識率は90%程度であったのに対し、明朝体等の現代印字フォント30種類を加えてCNNに学習させたところ、98%の認識率を記録したので、これを国際会議で発表した。また、帝国議会議事録の自動テキスト化に関しては、昨年度国内研究会で発表を行った手法を実際の議事録に適用して概ね良い結果が得られたことを国際会議で発表した。ディープラーニングを用いた未知字体生成に関しては、ニューラルネットの構成方法と学習パラメータの最適化に関して国際会議で発表を行った。近代書籍の文語体文章を現代口語体に自動変換するサブテーマでは、Convsec2secを利用したもので、対象を森鴎外の作品に絞って学習を行い、その結果を帝国議会議事録データに適用してみたが、十分な性能が得られず、まだ検討の必要があることが判明した。
|
現在までの達成度 (段落) |
令和元年度が最終年度であるため、記入しない。
|
今後の研究の推進方策 |
令和元年度が最終年度であるため、記入しない。
|