研究概要 |
昨年度に引続き,文書画像のレイアウト解析の高機能化に関する研究を行うと共に,電子テキストを対象として,ハイパーテキストリンク自動生成について検討を行った.概要は以下の通りである. 1. ポロノイ図を用いた文字列抽出法の改良 昨年度に提案した文字列抽出法について,抽出に用いる特徴量や処理アルゴリズムの改良を行った.また,マンハッタンレイアウト,非マンハッタンレイアウトの文書画像50サンプル(各25サンプル)を対象として実験を行い,性能を評価した.その結果,平均処理時間約7秒(Pentium II 300MHz),文字列抽出率89.6%という結果を得,処理精度的には課題が残るものの,高速に処理可能であることがわかった. 2. ブロック抽出結果を用いた文字列抽出法の検討 上記手法の処理誤りの多くは,局所的な制約のみを考慮して文字列を抽出することに起因する.そこで,ブロックという大域的な領域の抽出結果を用いて,文字列抽出の誤りを訂正する処理を考案し,弛緩法に基づいて実現した.同じ機器,サンプルを用いて評価実験を行ったところ,平均処理時間52秒,文字列抽出率90.6%を得た. 処理誤りの殆んどはブロック抽出誤りに起因するものであった. 3. ハイパーテキストリンクの自動生成法の検討 ハイパーテキストリンクをいかに生成するかは,電子図書館を実現する上で重要な問題である.予めシステム作成者がリンクを生成しておくのではなく,利用者の要求に応じてリンクが生成できれば,よりユーザフレンドリなシステムとなる.そこで本研究では,電子テキストを対象に,ユーザが興味を持つ文書の一部(例示部分)を例示すると,それに関連した部分(関連部分)を文書データベースから抽出する手法を検討した.本手法の特徴は,単語出現密度を用いて関連部分を同定する点にある.実験の結果,再現率62.9%,適合率58.8%を得,本手法の有効性を確認した.
|