統計的にも構造的にも妥当な画像生成モデルを構築し、高精度な画像認識を実現することを目的として研究を実施した。文字画像を対象とし、文字の骨格にストロークを表すテクスチャを張り付けることで画像を生成する手法を提案し、さまざまな文字フォント画像を対象とした実験により、高品質の画像が生成できることを確認した。また、生成された画像を用いることで文字の認識精度が向上することを確認した。ニューラルネットワークを活用する手法についても検討した。文字画像を対象とし、文字をあらかじめ部首に分解するのではなく、部首を含むという情報のみで部首のパターンを学習する手法を提案し、古典籍文字画像を対象とした実験を行って認識精度が向上することを確認した。この手法は認識対象とは異なる文字パターンを用いてそのパターンを認識できるようなモデルを構築する手法であり、学習に使えるパターンが少ない場合にも有効であるという特色がある。さらにこれを文字検出技術と組み合わせることで古典籍画像からの情報検索に応用した。構造解析については、グラフを用いて対象をモデル化する手法について検討した。グラフのノードを部分パターン、エッジを部分パターンどうしの接続関係に対応付け、統計的にモデル化する手法を検討した。文字画像以外の一般的な画像生成モデルについても検討した。ニューラルネットワークを用い、画像の一部が欠損した場合にその部分を修復するアルゴリズムをベースに、全体の画像を生成する手法を検討した。
|