研究課題/領域番号 |
23650089
|
研究機関 | 九州大学 |
研究代表者 |
内田 誠一 九州大学, システム情報科学研究科(研究院, 教授 (70315125)
|
研究分担者 |
金子 邦彦 九州大学, システム情報科学研究科(研究院, 准教授 (50274494)
馮 尭楷 九州大学, システム情報科学研究科(研究院, 助教 (60363389)
|
キーワード | パターン認識 / パターン分布 / ネットワーク解析 / フォント / 文字認識 / ビッグデータ |
研究概要 |
平成24年度中は,(1)80万サンプルからなる手書き数字画像データベース,(2)40万サンプルからなる印刷数字画像データベース,(3)7000種類のフォント画像データベースを利用し,それら画像パターンの分布に関する様々な定量的・定性的解析を行った.その際,極力元々の分布構造を崩すことのないように配慮した.実際には,パターンの近傍関係から作成した(i)最小全域木(MST),もしくは(ii)相対近傍グラフ(RNG)を用いてパターン分布をネットワーク表現しておき,その上でネットワーク解析手法を利用して,分布構造解析を行った. これらネットワークの1ノードは1画像に対応する.従って,(1)のデータセットについては80万ノードのネットワークとなる.こうした大規模なネットワークを直接観察するのは事実上不可能であるため,クラスタリングによる粗視化を行った.具体的には,同じクラスラベルを持つノードがネットワーク上で隣接していれば,それらを1つのハイパーノードとしてまとめる. 解析の結果,様々な事実が判明した.例えば,(2)のデータセットについては,40万ものサンプルがありながら,クラスタ化の結果,10個のハイパーノード,すなわち各数字クラスそれぞれに1ハイパーノードしか存在しなかった.このことは活字画像が,パターン空間内で各クラスで局所集中分布していることを示している.(1)の手書きの場合は格段に多いハイパーノードが発生し,手書き変形により分布が分散することがわかる.これらは直観的にも想像できることであるが,実証できたことが意義深い.さらにネットワーク表現により任意のクラス間の位置関係も同時表現される点も確認された.さらに(3)により「フォントネットワーク」を構成し,多様に見えるフォント群がある一定の傾向を持ってパターン空間内に分布していることも実証した.
|