研究課題/領域番号 |
17H01829
|
研究種目 |
基盤研究(B)
|
配分区分 | 補助金 |
応募区分 | 一般 |
研究分野 |
図書館情報学・人文社会情報学
|
研究機関 | 奈良女子大学 |
研究代表者 |
城 和貴 奈良女子大学, 生活環境科学系, 教授 (90283928)
|
研究分担者 |
高田 雅美 奈良女子大学, 生活環境科学系, 講師 (20397574)
石川 由羽 滋賀大学, データサイエンス教育研究センター, 助教 (20814370)
|
研究期間 (年度) |
2017-04-01 – 2020-03-31
|
研究課題ステータス |
完了 (2019年度)
|
配分額 *注記 |
15,990千円 (直接経費: 12,300千円、間接経費: 3,690千円)
2019年度: 2,730千円 (直接経費: 2,100千円、間接経費: 630千円)
2018年度: 7,280千円 (直接経費: 5,600千円、間接経費: 1,680千円)
2017年度: 5,980千円 (直接経費: 4,600千円、間接経費: 1,380千円)
|
キーワード | 自動テキスト化 / 深層学習 / CNN / レイアウト解析 / 言語翻訳 / デジタルアーカイブ / 文字認識 / テキスト化 / ディープラーニング / 知識処理 / 近代書籍自動テキスト化 / 文語体自動翻訳 |
研究成果の概要 |
本研究では四つの成果を得ることができた。まず、2017年度にそれまでの認識手法を統合し、学習データが少ないものの、実用化に近い2,678種の近代書籍文字を9割以上の認識率を記録した。次に学習データを増やすために深層学習を利用して未知の近代書籍文字種を自動生成する手法について2018年度に発表した。さらに2019年度には既存認識手法を一新し、深層学習を利用することで2017年度と同等の性能を示し、さらに転移学習を行うことで、9割程度だった認識率を一気に98%まで引き上げることができた。また、実用化には必須のレイアウト解析にも深層学習を利用できることを示した。
|
研究成果の学術的意義や社会的意義 |
近年個人所有のHDD等記憶メディアが劇的に大容量化し、インターネットを介して自由にデータのアクセスが可能になったことから、紙媒体でしか記録が残されていなかった近代書籍等のアーカイブ化が急速に行われている。しかしながら画像でのアーカイブ化では全文検索が不可能であり、現在のような規格が規定されていなかった頃の活版印刷に対応した自動テキスト化技術の確立は急務の課題である。本研究はその技術の確立を目指したもので、現時点で実用化に極めて近いレベルまで研究が進展している。
|