1998 Fiscal Year Annual Research Report
電子図書館構築のための文書データ入力支援システムの高機能化
Project/Area Number |
09780391
|
Research Institution | Osaka Prefecture University |
Principal Investigator |
黄瀬 浩一 大阪府立大学, 工学部, 講師 (80224939)
|
Keywords | 電子図書館 / 文書画像理解 / 文書画像解析 / レイアウト解析 / ボロノイ図 / 文字列抽出 / ハイパーテキスト化 / パッセージ検索 |
Research Abstract |
昨年度に引続き,文書画像のレイアウト解析の高機能化に関する研究を行うと共に,電子テキストを対象として,ハイパーテキストリンク自動生成について検討を行った.概要は以下の通りである. 1. ポロノイ図を用いた文字列抽出法の改良 昨年度に提案した文字列抽出法について,抽出に用いる特徴量や処理アルゴリズムの改良を行った.また,マンハッタンレイアウト,非マンハッタンレイアウトの文書画像50サンプル(各25サンプル)を対象として実験を行い,性能を評価した.その結果,平均処理時間約7秒(Pentium II 300MHz),文字列抽出率89.6%という結果を得,処理精度的には課題が残るものの,高速に処理可能であることがわかった. 2. ブロック抽出結果を用いた文字列抽出法の検討 上記手法の処理誤りの多くは,局所的な制約のみを考慮して文字列を抽出することに起因する.そこで,ブロックという大域的な領域の抽出結果を用いて,文字列抽出の誤りを訂正する処理を考案し,弛緩法に基づいて実現した.同じ機器,サンプルを用いて評価実験を行ったところ,平均処理時間52秒,文字列抽出率90.6%を得た. 処理誤りの殆んどはブロック抽出誤りに起因するものであった. 3. ハイパーテキストリンクの自動生成法の検討 ハイパーテキストリンクをいかに生成するかは,電子図書館を実現する上で重要な問題である.予めシステム作成者がリンクを生成しておくのではなく,利用者の要求に応じてリンクが生成できれば,よりユーザフレンドリなシステムとなる.そこで本研究では,電子テキストを対象に,ユーザが興味を持つ文書の一部(例示部分)を例示すると,それに関連した部分(関連部分)を文書データベースから抽出する手法を検討した.本手法の特徴は,単語出現密度を用いて関連部分を同定する点にある.実験の結果,再現率62.9%,適合率58.8%を得,本手法の有効性を確認した.
|
Research Products
(6 results)
-
[Publications] Koichi Kise: "Segmentation of Page Images Using the Area Voronoi Diagram" Journal of Computer Vision and Image Understanding. 70・3. 370-382 (1998)
-
[Publications] Koichi Kise: "A Computational Geometric Approach to Text-line Extraction from Binary Document Images" Proc.of the 3rd IAPR Workshop on Document Analysis Systems. 346-355 (1998)
-
[Publications] 岩田基: "隣接グラフによる文字列抽出" 画像の認識・理解シンポジウム'98講演論文集. 2. 281-286 (1998)
-
[Publications] 岩田基: "文書画像のレイアウトや傾きに依存しない高速文字列抽出法" 平成10年電気関係学会関西支部連合大会講演論文集. G345 (1998)
-
[Publications] 岩田基: "弛緩法に基づく文書画像のレイアウト解析" 1999年電子情報通信学会総合大会講演論文集. (発表予定). (1999)
-
[Publications] 山口将志: "例示部分に対する関連部分抽出のための文書検索法" 1999年電子情報通信学会総合大会講演論文集. (発表予定). (1999)