本研究では、機械学習を用いた画像認識の高精度化に寄与できる、多様かつ解釈性が高い画像生成モデルを開発することを目的としている。要素技術として画像を基本要素へ分解する手法、および高精細な画像を生成する手法などを開発し、要素技術を組み合わせることで多様な画像を生成する手法を開発した。 画像を基本要素へ分解する手法については、漢字の文字画像を題材とし、その文字がどのような要素の組み合わせで構成されるかを機械学習の手法を用いて判定する手法について引き続き検討した。前年度までは文字の部首を対象としていたが、今年度は部首に限らず特徴的な要素(パーツ)を自動抽出することを試みた。漢字がどのようなパーツから構成されるかを属性ベクトルの形で表し、同一字種からは似た属性ベクトルが生成されるように学習を行う。そして、パーツを用いて認識を行うことにより、分解の有効性を確認した。 画像生成に関しては、敵対的生成ネットワークを用いた機械学習の手法を引き続き検討した。画像のそれぞれの領域が何の領域かという情報を与えることでより高精度に画像を生成する手法を検討した。また、文字画像を対象とし、文字のデザインを与えるスタイル画像と文字種を与えるコンテンツ画像を組み合わせて学習させることにより、スタイル画像と同様のデザインを持ったコンテンツ画像と同じ文字種の文字パターンを生成する手法を検討した。 一方で、データセット蒸留の考え方を利用し、大量の実データセットを少量の合成データセットへ変換することで機械学習に有効な訓練データの特性について調査した。一般的なデータセット蒸留の手法では画像のカテゴリが判別できないような画像が生成されるため、自然な見た目となるような損失関数を導入することで画質を改善することを試みた。
|