2021 Fiscal Year Annual Research Report
Project/Area Number |
20H04483
|
Research Institution | Nara Women's University |
Principal Investigator |
城 和貴 奈良女子大学, 生活環境科学系, 教授 (90283928)
|
Co-Investigator(Kenkyū-buntansha) |
高田 雅美 奈良女子大学, 生活環境科学系, 講師 (20397574)
石川 由羽 滋賀大学, データサイエンス教育研究センター, 助教 (20814370)
|
Project Period (FY) |
2020-04-01 – 2023-03-31
|
Keywords | 近代書籍文字認識 / 機械学習 / 自動テキスト化 / 近代文語体現代口語体自動翻訳 / レイアウト解析 |
Outline of Annual Research Achievements |
近代書籍文字認識において、透視変換を用いたデータ拡張ならびにStyleGANを用いたデータ拡張を提案し、特にStyleGANを用いた手法が有効であることを示した。これらの手法に関しては、情報処理学会の研究会で発表を行っている。また、未知フォントを生成するfG-NNとfG-GANという2手法を提案し、未知フォントを生成できることを示した。この結果は情報処理学会論文誌に採録されている。さらに低出現頻度文字のクローラを実稼働させ、数日で約2千種の低出現頻度文字のクローリングを行った。この結果は担当した学生の修士論文で報告している。 近代文語体と現代口語体の自動翻訳では、学習データとして約4万対の文を整備した。これはスタンフォード大学フーバー研究所がアーカイブ化を進めている邦字新聞の翻訳と文字起こしをベースに行っている。翻訳に関しては本学文学部の学生にバイトとして担当してもらっており、質の良い翻訳文が可能となった。 また、対訳データのない状態から学習を行う手法では、分野を合わせることで無秩序に選んだコーパスよりよい性能が出ることが判明した。この結果は情報処理学会の研究会で発表を行っている。 レイアウト解析ではCRAFTを用いたものが有望であることを情報処理学科研究会で報告したが、本文の抽出を優先すると見出し文字部分の抽出ができないという問題が判明した。逆に見出し部分に焦点を当てると本文を抽出できない。この理由は我々の有する計算資源が貧弱であることだが、これを回避する手法が期待される。
|
Current Status of Research Progress |
Current Status of Research Progress
1: Research has progressed more than it was originally planned.
Reason
本研究の最大の問題は低出現頻度の近代書籍文字をどうやって集めるかであった。この問題に対し、近代書籍文字クローラーを開発することで対処し、実際に人手で集めるより数万倍早い収集が可能となった。さらに、GANを使ったデータ拡張が有効であることが判明し、1種類1000文字種程度のデータから数種類6000文字(JIS第1,2水準相当)の学習データを作ることで、95%程度の認識率を出すモデルを生成できる。更にそのようなモデルを5種類程作ることでアンサンブル学習を行わせ、認識率99%を記録している。
|
Strategy for Future Research Activity |
近代書籍文字認識の学習データ収集に関しては、クローリングで集める方法、GANを使ったデータ拡張で目的は達成できた。今後はアンサンブル学習を行わなくとも単体での性能向上を目指して、CNNによるモデルに変えて、深層距離学習を使ったものを検討する。 近代書籍からの知の再構築の最大の課題は近代文語体と現在口語体の相互自動翻訳であるが、これに必要な対訳データは本研究費を使って収集が順調に進められており、今後実用化に耐えうる精度のものが期待できる。また、日本語を扱う際の評価でBLEUスコアが欧米系言語に比べて高すぎる問題点が指摘されており、その評価の見直しも重要な課題である。 レイアウト解析に関しては、CRAFTベースのものでは解像度的に十分なものを学習データとして与えた場合、計算量が多すぎて現有の計算資源では対処できないため、解像度ピラミッドを用いた多段の手法で文字抽出を行う。
|