研究課題/領域番号 |
23650089
|
研究機関 | 九州大学 |
研究代表者 |
内田 誠一 九州大学, システム情報科学研究科(研究院, 教授 (70315125)
|
研究分担者 |
金子 邦彦 九州大学, システム情報科学研究科(研究院, 准教授 (50274494)
馮 尭楷 九州大学, システム情報科学研究科(研究院, 助教 (60363389)
|
研究期間 (年度) |
2011-04-28 – 2013-03-31
|
キーワード | パターン認識 / 文字認識 / ビッグデータ / パターン分布 / ネットワーク解析 |
研究概要 |
平成23年度中には,80万サンプルからなる数字画像データベースを利用し,それら数字画像パターンの分布に関する様々な定量的・定性的解析を行った.その際,極力元々の分布構造を崩すことのないように(例えば低次元部分空間への投影等を行わないように)配慮した. 具体的には,第一に,パターンの近傍関係から作成した最小全域木を用いてパターン分布の構造解析を行った.その結果,まず,パターンがクラスごとに広い領域(クラスタ)を形成していることがわかった.次に,クラスの隣接関係や,パターンの増加に伴うパターン空間の状況の変化を検証した.このために,最小全域木のノードの次数分布の変化を観察したり,異なるクラスと隣接するノードの個数をカウントするなどした.また,最小全域木を用いたことで,任意の2パターン間を繋ぐ経路が定まることを利用し,その経路上でのパターン系列,すなわちパターンが空間内で連続的に変化する様子を実データのみを用いて観察することに成功した. 第二に,欠損文字補完を通してパターン分布の解明に取り組んだ.その結果,学習パターン数が増加するにつれて,欠損領域の最近傍パターンによる補完形状は元のパターン形状に近づくことがわかった.例えば,パターン全体の画素のうち90%がランダムに欠損した場合でも,約80%程度を補完できた.このことは,数字パターン分布が如何に偏っており,すなわち,情報理論的には文字パターン形状が如何に冗長かを実証することとなった.
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
80万サンプルからなる数字画像データベースを利用し,それらサンプルの分布について,様々な角度からの解析を実施した.その結果,クラスは大規模なクラスタを構成しており,それらクラスタ間を結ぶようなサンプルは極めて少ないことや,大量のサンプルがあれば,画像の一部が欠落しても,それを補完しうることなどが実験的に示された.そして,それらの成果は,1件の国際会議招待講演,1件の国際会議論文(投稿中),および2件の国内研究会発表として公表済みである.以上の事実より,上記の達成度と評価した.
|
今後の研究の推進方策 |
ビッグデータ研究の勃興により,様々な分布解析方法が提案されている.これに応じて,当研究においても,様々な角度からの解析を進める.ただし,クラス概念の明確さや,パターンをビットマップとして直感的に観察できるという,文字独自の性質には最大限配慮する.平成23年度は最小全域木および最近傍パターンを用いた解析が主体であったが,平成24年度は,他の位相構造(最近傍グラフなど)を分布に導入する.これにより,解析に要する計算量は増加するが,近傍関係を忠実に表現できるため,より詳細な解析がなされるものと期待する.さらにサポートベクトルを用いた分布境界の可視化,ならびにcondensationのようなデータ削除方法の影響についても,80万手書き数字データセットを用いて,定量的・定性的評価を行う.また,大量な活字データを対象とした実験についても着手し,傾向の違いを観察する.
|
次年度の研究費の使用計画 |
H23年度は比較的計算量の少なくてすむ最小全域木を用いて解析を行ったため,当研究室既存の計算機での実験が可能であった.H24年度はより計算負荷の高い解析を実施するため,研究備品費のほとんどを,より高性能な計算機の購入に充てる予定である.
|