研究課題/領域番号 |
20H04483
|
研究種目 |
基盤研究(B)
|
配分区分 | 補助金 |
応募区分 | 一般 |
審査区分 |
小区分90020:図書館情報学および人文社会情報学関連
|
研究機関 | 奈良女子大学 |
研究代表者 |
城 和貴 奈良女子大学, 生活環境科学系, 教授 (90283928)
|
研究分担者 |
高田 雅美 奈良女子大学, 生活環境科学系, 講師 (20397574)
石川 由羽 滋賀大学, データサイエンス学系, 助教 (20814370)
|
研究期間 (年度) |
2020-04-01 – 2023-03-31
|
キーワード | デジタルアーカイブ / 文字認識 / レイアウト解析 / ディープラーニング / ニューロ翻訳 |
研究成果の概要 |
近代書籍文字認識ではレイアウト解析において新聞等に見られる多段多見出し出版物に適した手法を提案し有効性を確認した。認識部分では学習データをクローリングで取り出す手法を実装し、人間が手作業で行うより数百倍早く収集できる環境を構築した。また、GANを利用して、特定の近代書籍出版者のデータにない文字種を人工的に作り出す手法を確立した。さらに認識エンジンとして、それまでのCNNから深層距離学習に変更することで、99%以上の認識率を確認し、近代書籍文字認識研究の完成を得た。近代文語体から現代口語体への機械翻訳では、学習データ対を6万文整備し、Transformerで十分な精度の翻訳が可能なことを示した。
|
自由記述の分野 |
情報工学
|
研究成果の学術的意義や社会的意義 |
本研究成果は画像としてアーカイブ化された近代書籍のテキスト化を自動的に行えることを示したもので、テキスト化された近代文語体の文章を現代口語体に自動翻訳することで、近代書籍の知を再構成して利用することが可能となる。現在スタンフォード大学フーバー研究所でアーカイブ化が進められている邦字新聞(明治以降の日本人移民が現地で出版した日本語の新聞の総称)に本研究成果が利用される予定である。また、本研究の知見は令和6年度に公開される国会図書館のNDLOCR2で一部利用されており、NDLOCR2では近代書籍に対応した初めてのOCRとなる。
|