研究課題/領域番号 |
22K12729
|
研究種目 |
基盤研究(C)
|
配分区分 | 基金 |
応募区分 | 一般 |
審査区分 |
小区分90020:図書館情報学および人文社会情報学関連
|
研究機関 | 東北大学 |
研究代表者 |
宮崎 智 東北大学, 工学研究科, 助教 (10755101)
|
研究期間 (年度) |
2022-04-01 – 2025-03-31
|
研究課題ステータス |
交付 (2023年度)
|
配分額 *注記 |
3,770千円 (直接経費: 2,900千円、間接経費: 870千円)
2024年度: 1,040千円 (直接経費: 800千円、間接経費: 240千円)
2023年度: 1,300千円 (直接経費: 1,000千円、間接経費: 300千円)
2022年度: 1,430千円 (直接経費: 1,100千円、間接経費: 330千円)
|
キーワード | くずし字認識 / 文字画像生成 / 文書解析 / 古典籍 / 文字構造の理解 / くずし字 / 構造解析 / 画像認識 / グラフ解析 |
研究開始時の研究の概要 |
くずし字の多くの文字種はデータ不足のために高精度な認識を実現できておらず、あらゆるくずし字を高精度に認識する技術の開発は未だ挑戦的な課題である。本研究では限られたデータを活用して少ない文字種をも高精度に認識できるくずし字認識技術を開発することを目的とする。具体的には、申請者のこれまでの研究成果であるグラフパターン解析技術と文字画像の自動生成技術に関する知見を活用し、くずし字を構成する本質的な部分構造を抽出することで複数の文字種を相補的に学習する技術を開発する。
|
研究実績の概要 |
令和5年度(2023年)は画像生成を用いた少数データくずし字認識手法を開発した。くずし字認識の研究において、古典籍中に存在する多くの文字種でデータ数が少ないことが大きな課題となっている。そこで本研究では、少数データ文字種と学習データ中に存在しない文字種の認識を行うために、敵対的生成モデル(Generative Adversarial Network, GAN)を基盤としたFTransGAN 生成モデルを用いてくずし字画像を生成する手法を開発した。提案手法を用いて認識モデルの学習データ枚数を補強することを提案した。 生成モデルでは、生成画像の視覚的特徴であるスタイル画像の特徴を生成画像の骨組みとなるコンテンツ画像に反映することで画像生成を行う。そのため、文書ごとに異なる文字特徴をスタイルとして捉え、その特徴を反映するように画像生成を行う。また、生成モデルの学習時に使用していない文字種画像が生成可能であるため、少数データ文字種と学習データ中に存在しない文字種画像の補強が可能である。 提案手法による生成画像とオリジナルくずし字画像を合わせた混合データセットを用いて、文字種をクラスとした分類問題を解く一般的な認識モデルを学習させる実験を行った。実験結果より、提案した生成手法を用いて生成した画像は比較手法で生成した画像と比べて字形の乱れが少ない高品質な画像となっていた。また、生成画像を認識モデルの学習に利用することで少数データ文字種の認識精度が向上し、比較手法を上回った。一般的な認識モデルでは認識が不可能な学習データ中に存在しない文字種についても、生成画像を利用することで認識が可能となり、特に提案した生成手法により生成した画像を用いることで50%以上の認識精度を達成した。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
本年度はくずし字の構造を理解するため、画像生成モデルに文字特徴を学習させる手法を開発してきた。高品質なくずし字画像を生成し認識精度の向上を実現するため、基盤生成モデルであるフォント生成手法のFTransGAN に文字種分類を行うContent Classifier、および文字特徴を反映したVGG Lossを導入した生成手法を開発した。Content Classifier の導入により、文字種ごとに異なる文字特徴を明示的に反映した画像を生成することができた.また、VGG Loss の導入により、オリジナルのくずし字画像に近い文字特徴を持つ画像を生成できることを示した。まとめると、文字構造の理解には文字認識モデルが肝要であることとが明らかとなった。さらに、文字特徴量の学習程度を計測する指標として、VGG Lossが有用であることも分かった。よって、本研究の進捗状況としては、おおむねに順調に進展していると判断した。
|
今後の研究の推進方策 |
今後は、くずし字の本質的な構造を理解するため、言語学をもとに解析する手法を検討する。近年の大規模言語モデルは著しく進歩しており、人間の理解に近づきつつある。言語モデルを用いてくずし字認識を学習することで、くずし字を言語学的な観点から解析することができると考えており、くずし字の本質的な構造を理解した認識モデルを構築できる可能性がある。
|