研究課題/領域番号 |
08780403
|
研究種目 |
奨励研究(A)
|
配分区分 | 補助金 |
研究分野 |
情報システム学(含情報図書館学)
|
研究機関 | 大阪府立大学 |
研究代表者 |
黄瀬 浩一 大阪府立大学, 工学部, 講師 (80224939)
|
研究期間 (年度) |
1996
|
研究課題ステータス |
完了 (1996年度)
|
配分額 *注記 |
1,000千円 (直接経費: 1,000千円)
1996年度: 1,000千円 (直接経費: 1,000千円)
|
キーワード | 文書画像理解 / 電子図書館 / HTML / 細線化 / ボロノイ図 / 意味ネット / マ-カパッシング / レイアウト解析 |
研究概要 |
1.文書画像のレイアウト解析の拡張 (1)背景領域の細線化による手法 背景領域の細線化という観点からレイアウト解析法を考案し、実験を行った。その結果、複雑なレイアウト(文書の構成要素を矩形では囲むことができないもの;非矩形レイアウト)や傾きを持つ文書に対しても、本手法が有効に動作することは確認されたものの、従来法に比べて処理時間がかかるという問題点も明らかとなった。 (2)一般図形ボロノイ図を用いた手法 背景領域の細線化のかわりに、黒画素の8連結成分から一般図形ボロノイ図を生成し、利用する方法を考案した。その結果、処理時間が1/5程度にまで圧縮できた。このことにより、従来法と大差ない処理時間により、従来法では対処が困難であった複雑なレイアウトや傾きを持つ文書を処理可能となった。 2.論理構造化・参照構造抽出の柔軟性向上 (1)矩形レイアウト文書に対する検討 従来法を用いてレイアウト解析を行った結果に基づき、論理構造・参照構造を抽出する処理を考案・改良するとともに、実験を行って成果を発表した。現在、1.の処理結果を入力とする論理構造の抽出手法を検討中であり、orderingとgroupingという2種類の考えを新たに導入し、対象文書に依存しない処理の実現を目指している。 (2)参照構造抽出の検討 図と説明テキストの間で詳細な参照構造を抽出する処理として、説明テキストを文単位で図の各部に対応付ける処理を考案した。この処理は、マ-カパッシング(電子化辞書研究所の概念辞書から構築した40万概念、90万リンクを持つ意味ネットを利用)により、対応付けの手がかりを得るものである。 3.システムの再構築と評価 以上の手法を組み合わせて、現在、システムを再構築中である。また、スキャナを用いて実験データを収集した(1.の評価実験にも使用した)。
|