研究課題/領域番号 |
20H04483
|
研究種目 |
基盤研究(B)
|
配分区分 | 補助金 |
応募区分 | 一般 |
審査区分 |
小区分90020:図書館情報学および人文社会情報学関連
|
研究機関 | 奈良女子大学 |
研究代表者 |
城 和貴 奈良女子大学, 生活環境科学系, 教授 (90283928)
|
研究分担者 |
高田 雅美 奈良女子大学, 生活環境科学系, 講師 (20397574)
石川 由羽 滋賀大学, データサイエンス学系, 助教 (20814370)
|
研究期間 (年度) |
2020-04-01 – 2023-03-31
|
研究課題ステータス |
完了 (2022年度)
|
配分額 *注記 |
17,680千円 (直接経費: 13,600千円、間接経費: 4,080千円)
2022年度: 5,330千円 (直接経費: 4,100千円、間接経費: 1,230千円)
2021年度: 6,110千円 (直接経費: 4,700千円、間接経費: 1,410千円)
2020年度: 6,240千円 (直接経費: 4,800千円、間接経費: 1,440千円)
|
キーワード | デジタルアーカイブ / 文字認識 / レイアウト解析 / ディープラーニング / ニューロ翻訳 / 近代書籍文字認識 / 深層距離学習 / 近代文語体自動翻訳 / CRAFT / 解像度ピラミッド / 自動テキスト化 / 自動翻訳 / 機械学習 / 近代文語体現代口語体自動翻訳 / 深層学習 / 低出現頻度文字クローラ / 汎用レイアウト解析 / 相互翻訳 |
研究開始時の研究の概要 |
本研究グループはこれまでに近代書籍文字認識手法と近代文語体現代口語体相互自動翻訳手法、特定の近代書籍に特化したレイアウト解析手法に関する基礎研究を行ってきた。本研究では、低出現頻度文字クローラを利用した近代書籍文字認識、ニューラル機械翻訳による近代文語体現代口語体相互自動翻訳、複数のレイアウト解析技術をハイブリッドに融合した近代書籍用レイアウト解析の三研究課題に取りくむ。さらにこれらの研究成果で実際に「近代書籍からの知の再構築」ができることを示すために、米国スタンフォード大学フーバー研究所で整備が進められている邦字新聞デジタルコレクションに本研究成果を適用する。
|
研究成果の概要 |
近代書籍文字認識ではレイアウト解析において新聞等に見られる多段多見出し出版物に適した手法を提案し有効性を確認した。認識部分では学習データをクローリングで取り出す手法を実装し、人間が手作業で行うより数百倍早く収集できる環境を構築した。また、GANを利用して、特定の近代書籍出版者のデータにない文字種を人工的に作り出す手法を確立した。さらに認識エンジンとして、それまでのCNNから深層距離学習に変更することで、99%以上の認識率を確認し、近代書籍文字認識研究の完成を得た。近代文語体から現代口語体への機械翻訳では、学習データ対を6万文整備し、Transformerで十分な精度の翻訳が可能なことを示した。
|
研究成果の学術的意義や社会的意義 |
本研究成果は画像としてアーカイブ化された近代書籍のテキスト化を自動的に行えることを示したもので、テキスト化された近代文語体の文章を現代口語体に自動翻訳することで、近代書籍の知を再構成して利用することが可能となる。現在スタンフォード大学フーバー研究所でアーカイブ化が進められている邦字新聞(明治以降の日本人移民が現地で出版した日本語の新聞の総称)に本研究成果が利用される予定である。また、本研究の知見は令和6年度に公開される国会図書館のNDLOCR2で一部利用されており、NDLOCR2では近代書籍に対応した初めてのOCRとなる。
|