2018 Fiscal Year Annual Research Report
Project/Area Number |
17H01829
|
Research Institution | Nara Women's University |
Principal Investigator |
城 和貴 奈良女子大学, 生活環境科学系, 教授 (90283928)
|
Co-Investigator(Kenkyū-buntansha) |
高田 雅美 奈良女子大学, 生活環境科学系, 講師 (20397574)
|
Project Period (FY) |
2017-04-01 – 2020-03-31
|
Keywords | デジタルアーカイブ / 文字認識 / 深層学習 / 言語翻訳 |
Outline of Annual Research Achievements |
今年度は近代書籍用OCRのデータ収集を効率よく行うためのWebアプリ(平成26年度科研Bで試験実装)の再実装を行う予定であったが、再実装を行うための専任の研究員の就職が決まってしまい、再実装を行うための調査に終わってしまった。来年度はWebアプリの再実装を、今年度の概要設計をベースに実際に行う。また、帝国議会議事録の自動テキスト化に関しては、レイアウト解析の手法を2種類提案し学会で口頭発表を行った。深層学習を用いた未知字体生成に関しては、ニューラルネットの構成方法と学習パラメータの最適化に関して研究を進展させ、その成果を来年度夏の国際会議で発表の予定である。近代書籍の文語体文章を現代口語に自動変換するサブテーマでは、当初対象を森鴎外の作品に絞ってTensor Flowのseq2seqを適用したが、その結果は満足のいくものではなかった。そこでそれ以外の複数変換器を検討して試したところ、Convseq2seqがかなり満足のいく変換器であることが分かった。来年度はこの手法をベースに翻訳精度を上げる。また、その結果を帝国議会議事録のデータに適用してみる。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
Web収集支援アプリの開発は専任の研究員(ポスドク)を確保したものの、6月には9月からの就職先が決まってしまい、旧システムの問題点の洗い出ししかできなかった。帝国議会議事録の自動テキスト化に関しては、最も困難であるレイアウト解析が、深層学習を使って可能であることが分かった。大きな進展と言える。深層学習を用いた未知字体生成に関しては、昨年度に可能であることは示せたが性能が芳しくなかったため、他の手法を検討していたところ、当初の手法でニューラルネットの構成と学習パラメータを試行錯誤することで大幅に性能を上げることができた。これも大きな進展と言える。近代書籍の文語体文章を現代口語に自動変換するサブテーマでは、数種類の手法を試したが、まだ実用に耐えうるものは発見されていない。これはそもそも文語体文章の現代語訳が非常に限られているからであり、非常に難しい課題と言える。
|
Strategy for Future Research Activity |
Web収集支援アプリが完成すれば学習データが容易に集まることになるので近代書籍用OCRの実用化が一気に加速する。セマンティックセグメンテーションを利用した帝国議会議事録のレイアウト解析が完成すれば、各種ドメインごとに適用することでレイアウト解析から文字認識までの自動化が可能となる。文語体文章から口語体への翻訳は小規模なデータからの学習方法を検討してみる。
|