研究課題/領域番号 |
15K00469
|
研究機関 | 山口大学 |
研究代表者 |
中田 充 山口大学, 教育学部, 教授 (60304466)
|
研究分担者 |
葛 崎偉 山口大学, 教育学部, 教授 (30263750)
吉村 誠 山口大学, 教育学部, 教授 (70141116)
|
研究期間 (年度) |
2015-04-01 – 2019-03-31
|
キーワード | 類似部分グラフ検索 / 同型部分グラフ検索 / 古文書画像検索 / 特徴グラフ / 文書グラフ / 検索グラフ |
研究実績の概要 |
本研究の目的である「古文書画像検索システムの実現」に向けて,本年度は,「課題1:文書グラフ変換技術の確立」,「課題2:検索グラフと類似する構造を含む文書グラフ検索技術の実現」に従事した. 課題1については,(a) 古文書画像を行単位に分割する支援ソフト,(b) 角度距離グラフを用いた行単位の古文書画像を特徴グラフに変換するソフトウェアを開発した.現状では,裏写りのない三行以上にまたがった極端に幅の広い行を含まない文書画像については,ほぼ自動で分割できる仕組みが確立できている.また,文字の形状をほぼ表現できる文書グラフの作成ができている. 課題2については,検索条件として「検索グラフ」と「必須グラフ」という概念を取り入れ,文書グラフ中に含まれる必須グラフと同型の部分グラフを求めることで,検索グラフに類似した文書グラフ中の部分グラフ(類似部分グラフ)を求めるアルゴリズムを提案した.さらに,提案したアルゴリズムを,プログラミング言語Javaを用いて実装した.その上で,課題1に関して実現したソフトウェアを用いて作成した文書グラフと検索グラフ・必須グラフを用いて評価実験を行い,提案手法を評価した.評価実験には,源氏物語青表紙本浮船から抜き出した5行の古文書画像とそれらの特徴グラフを用いた.その結果,類似部分グラフ検索の精度を向上するには,類似部分グラフ検索アルゴリズムを改善すると共に,基になる文書グラフの形状を整える必要があり,(b)のソフトウェアの性能を向上しなければならないことが判明した.
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
平成 27 年度の研究計画は,(1)古文書画像を文書グラフに変換する技術を実現する,(2) 検索グラフと類似する構造を含む文書グラフを検索する手法のアルゴリズムを提案する,(3) 評価用データとしての古文書画像データの収集及び整理を行うことの3点であった. これに対して,(1)については,a) 古文書画像を 1 行毎に分割するプログラムを実現し,b) 過去の研究提案済みの文字構造を表すグラフの生成法を改良することで、より正確に文書グラフに変換するプログラムをノート PC 上に実現した. また,(2)については,検索グラフを「検索条件として欠くことの出来ない構造を表す部分」(以降、必須グラフ)とそれ以外の部分に分け、文書グラフに含まれる必須グラフと同型の部分グラフを余すことなく求めるアルゴリズムを提案し,そのアルゴリズムを利用して「似ているが少し違う構造」を検出する手法を提案した.さらに,計画を前倒しして,その手法を採用したプログラムを試作し,評価実験を行った. (3)については,源氏物語青表紙本浮船を古文書の例として,スキャナを用いてスキャンすることで,評価実験用データとして準備した. 以上から,ほぼ,計画通りに進行していると言える.
|
今後の研究の推進方策 |
本年度は,以下の(1)~(3)の計画で研究を進める予定である. (1) 検索グラフと類似する構造を含む文書グラフを検索する技術を実装する。 H27年度に前倒しで試作した類似部分グラフ検索プログラムを改善した上で,類似部分グラフと検索グラフの間の形状の類似度を評価する指標を提案し,それを計算するアルゴリズムを設計・実装する.(2) 特徴グラフ作成プログラムを改良する.(3) 文書グラフを高速に検索するためのアルゴリズムを考案し、それに基づいた索引技術を試作する.
|
次年度使用額が生じた理由 |
本年度はノートPCを2台購入予定であったが,国際会議@Seoulでの発表に研究協力者の院生を同行させたため,1台の購入を来年度以降に見送った.そのため,6万円弱の差額が発生した.
|
次年度使用額の使用計画 |
H28年度に購入するPCの予算に充当する.
|