研究実績の概要 |
近代書籍文字認識において、これまでに使用してきたCNNに代わって深層距離学習を採用したところ、L2-constrained SoftMaxを使ったものが同じ条件で行ったCNNより優位な認識率を出すことが分かった。この研究成果は令和4年7月に米国ラスベガスで開催された国際会議で発表を行っている。その後、距離学習の中でも基本的なL2-constrained SoftMax以外の手法でFace系(CosFace, ArcFace, SphereFace)を適切に使うことで認識率を更に良くすることが判明し、近代書籍文字認識の基礎研究として、ほぼ完成を見たと言える状態に到達した。 近代文語体と現代口語体の自動翻訳では、前年度の研究を更に進めて、6万対を大幅に超える近代文語体・現代口語体の文を整備した。整備した学習データを用いて、これまでに行ってきたニューロ翻訳の予備実験から本格的な実験に着手したところ、予備実験では最適と思われていたConvSeq2Seqより、データを十分に与えられたTransformerの方が優位に優れていることが判明した。この研究成果も上記国際会議で発表を行っている。 レイアウト解析では、これまでにCRAFTを用いたものが有望であるとの知見を得ていたが、これをマルチカラム・マルチサイズの近代書籍(新聞や帝国議会会議録)に適用する場合、CRAFTの追加学習に必要な膨大な計算資源を確保できないため、ピラミッド解像度を併用した手法を開発し、近代書籍文字認識に対応したNDLOCRやGoogleのVisionAPIよりも文字抽出の精度が良いことを示した。この研究結果は情報処理学会論文誌にて採録決定している。
|