2020 Fiscal Year Annual Research Report
Project/Area Number |
20H04483
|
Research Institution | Nara Women's University |
Principal Investigator |
城 和貴 奈良女子大学, 生活環境科学系, 教授 (90283928)
|
Co-Investigator(Kenkyū-buntansha) |
高田 雅美 奈良女子大学, 生活環境科学系, 講師 (20397574)
石川 由羽 滋賀大学, データサイエンス教育研究センター, 助教 (20814370)
|
Project Period (FY) |
2020-04-01 – 2023-03-31
|
Keywords | 低出現頻度文字クローラ / 近代文語体現代口語体自動翻訳 / 汎用レイアウト解析 |
Outline of Annual Research Achievements |
本研究課題では、低出現頻度文字クローラを利用した近代書籍文字認識、教師なしニューラル機械翻訳機による近代文語体現代口語体相互自動翻訳、複数のレイアウト解析技術をハイブリッドに融合した近代書籍用レイアウト解析の三研究課題に取り組み、さらにこれらの研究成果で実際に「近代書籍からの知の再構築」ができることを示すために、邦字新聞デジタルコレクション(https://hojishinbun.hoover.org)に本研究成果を適用することを目的としている。今年度の研究成果として、低出現頻度文字クローラの実装を完成し、国際学会にて発表すると同時に、その運用を試験的に稼働している。またにゅーらる機械翻訳では、教師なしの方は予想通り困難であるものの、教師ありに関しては邦字新聞の記事の文字起こしと現代文翻訳の対訳データを整備し、約2万セットを確保した。このデータセットは来年度に実際に学習データとして利用して翻訳の精度を検証する予定である。同時に教師なしニューラル機械翻訳のデータに追加することで精度が向上するか試してみる予定である。複数のレイアウト解析技術を融合するサブテーマに関しては、CRAFTを解像度ピラミッドを使って階層的に適用することで、ほぼ100%の文字切り出しが見込まれた。来年度には論文として発表する予定である。邦字新聞への適用に関しては、近代文語体現代口語体相互自動翻訳の対訳データを本学文学部の学生をバイトで雇うことで2万対を整備することができた。
|
Current Status of Research Progress |
Current Status of Research Progress
1: Research has progressed more than it was originally planned.
Reason
当初予定してた3サブテーマのうち、1)近代書籍文字認識では、低出現頻度クローラならびに近代書籍文字認識サーバの実装を完成させ、後者に関してはWebアプリ化することで誰でも利用可能となる仕組みをほぼ完成させた。また、当初計画になかったが、近代書籍文字認識のためのデータ拡張技術に目途がついたため、これを来年度実装を行う予定である。2)近代文語体現代口語体相互自動翻訳に関しては、対訳データの整備を本学文学部学生をバイトで雇うことで充実させることができた。まだ実際に学習させるまでに至っていないが、2万対訳データを使うことで実用化に近いものが見込まれる。3)近代書籍用レイアウト解析に関しては、当初の計画を変更し、CRAFTを解像度ピラミッドで使うことでテストデータに対して100%の認識を得ることが予備実験で明らかになった。これは学習データを人工的に作る(文章の内容はランダム)ことで学習を可能とした。以上の主要3テーマ以外に、4)邦字新聞への適用というサブテーマを計画ではあげていたが、2)の学習データを邦字新聞から取ってくることで、邦字新聞への実際の適用に道筋をつけることができた。
|
Strategy for Future Research Activity |
本研究は過去12年に渡る研究テーマの一部であるが、近代書籍の活版印刷文字認識に対する学習データをいかにして確保するかというオープンプロブレムがあった。すなわち、書籍の文字には低出現頻度文字種があり、その頻度はジップの法則に従うというものである。そのため、出現頻度上位2000以下の文字種に対しては、低出現頻度文字クローラを開発したものの、JIS第2水準相当まで十分なセット数(数百セット)集めることは不可能である。一方、近年GANを利用した画像生成研究がさかんに行われており、本研究グループでも特定の出版者の未知フォントを既知フォントから自動生成する研究を行ってきたが、我々の目的は未知フォントを正確に生成することではなく、それらのデータの特徴を代表するようなデータ拡張を行えば良いことに気づき、StyleGANやConditionalGANを用いた方法で、データ拡張可能である予備実験結果を得ることができた。来年度はこれらの予備実験結果をベースにデータ拡張を目指す。さらに、StyleGANの利用を検討していて、これが任意の漢字の偏や旁を抽出可能であることが判明した。我々は出現頻度の高い文字に関しては1パスで認識を行うが、出現頻度の低い文字に関しては、偏や旁の組み合わせで認識を複数パスで行うという事実があるため、この人間の認識過程を再現する研究に着手する予定である。これが実現すれば、どのように複雑な極低出現頻度文字であっても100%認識できるシステムが構築可能と期待する。すなわち、文字認識研究における最後のブレークスルーを得ることが可能と思われる。
|
Research Products
(6 results)