1996 Fiscal Year Annual Research Report
文書画像の統合理解による電子図書館構築支援方式の検討
Project/Area Number |
08780403
|
Research Institution | Osaka Prefecture University |
Principal Investigator |
黄瀬 浩一 大阪府立大学, 工学部, 講師 (80224939)
|
Keywords | 文書画像理解 / 電子図書館 / HTML / 細線化 / ボロノイ図 / 意味ネット / マ-カパッシング / レイアウト解析 |
Research Abstract |
1.文書画像のレイアウト解析の拡張 (1)背景領域の細線化による手法 背景領域の細線化という観点からレイアウト解析法を考案し、実験を行った。その結果、複雑なレイアウト(文書の構成要素を矩形では囲むことができないもの;非矩形レイアウト)や傾きを持つ文書に対しても、本手法が有効に動作することは確認されたものの、従来法に比べて処理時間がかかるという問題点も明らかとなった。 (2)一般図形ボロノイ図を用いた手法 背景領域の細線化のかわりに、黒画素の8連結成分から一般図形ボロノイ図を生成し、利用する方法を考案した。その結果、処理時間が1/5程度にまで圧縮できた。このことにより、従来法と大差ない処理時間により、従来法では対処が困難であった複雑なレイアウトや傾きを持つ文書を処理可能となった。 2.論理構造化・参照構造抽出の柔軟性向上 (1)矩形レイアウト文書に対する検討 従来法を用いてレイアウト解析を行った結果に基づき、論理構造・参照構造を抽出する処理を考案・改良するとともに、実験を行って成果を発表した。現在、1.の処理結果を入力とする論理構造の抽出手法を検討中であり、orderingとgroupingという2種類の考えを新たに導入し、対象文書に依存しない処理の実現を目指している。 (2)参照構造抽出の検討 図と説明テキストの間で詳細な参照構造を抽出する処理として、説明テキストを文単位で図の各部に対応付ける処理を考案した。この処理は、マ-カパッシング(電子化辞書研究所の概念辞書から構築した40万概念、90万リンクを持つ意味ネットを利用)により、対応付けの手がかりを得るものである。 3.システムの再構築と評価 以上の手法を組み合わせて、現在、システムを再構築中である。また、スキャナを用いて実験データを収集した(1.の評価実験にも使用した)。
|
-
[Publications] 野久仁志: "マ-カパッシングを利用した概念図と説明文の対応付け" 1997年電子情報通信学会総合大会講演論文集. (発表予定). (1997)
-
[Publications] 佐藤昭則: "一般図形ボロノイ図に基づく文書画像の領域分割" 1997年電子情報通信学会総合大会講演論文集. (発表予定). (1997)
-
[Publications] 黄瀬浩一: "白領域の細線化を用いた文書画像の領域分割" 電子情報通信学会論文誌(D-II). (採録決定). (1997)
-
[Publications] 大開 保: "電子図書館構築のための印刷文書のハイパーテキスト化" 画像の認識・理解シンポジウム(MIRU'96)講演論文集. 2巻. 277-282 (1996)
-
[Publications] 黄瀬浩一: "白領域の細線化表現を用いた文書画像の領域分割" 画像の認識・理解シンポジウム(MIRU'96)講演論文集. 1巻. 337-342 (1996)
-
[Publications] 黄瀬浩一: "白領域の有効面積に基づく文書画像領域分割" 電気学会論文誌C. 116-C・9. 1035-1042 (1996)
-
[Publications] Koichi Kise: "Page Segmentation Based on Thinning of Background" Proceedings of the 13th International Conference on Pattern Reoognition. Vol. III. 788-792 (1996)
-
[Publications] 谷 忠明: "解釈の曖昧性を考慮した図と説明テキストの統合理解" 電気学会論文誌C. 116-C・11. 1202-1210 (1996)
-
[Publications] 黄瀬浩一: "一般図形ボロノイ図を用いた文書画像の領域分割" 電子情報通信学会技術研究報告(パターン認識・メディア理解). (発表予定). (1997)