2002 Fiscal Year Annual Research Report
Project/Area Number |
14580453
|
Research Institution | Osaka Prefecture University |
Principal Investigator |
黄瀬 浩一 大阪府立大学, 工学研究科, 助教授 (80224939)
|
Keywords | 情報検索 / 情報リサイクル / 文書解析 / 文書検索 / 文書画面データベース / 情報抽出 / 文書画像検索 / データ埋め込み |
Research Abstract |
今年度の研究を通して得た成果は以下の通りである。 1.印刷文書の再使用に関する成果 印刷文書の背景(白地)に細かい点を配置することにより、データを記録する方式を考案した。本手法は、位置ずれによって1ビットの情報を表す点をマトリックス状に配置するものである。特徴は、データの記録に用いる点が非常に細かく(0.04×0.08mm)人間には薄い灰色にしか知覚できない点にある。技術論文紙面を対象とした実験の結果、20%の読み取り誤りを許容しても、ページあたり4KBのデータを埋め込むことに成功した。 2.文書画像検索の高度化 文書画像検索の新しい手法として、2次元パッセージ検索に基づく手法を考案した。この手法は、「検索質問に含まれる単語が密集して存在する部分は検索質問に関連する可能性が高い」という考えに基づく手法である。また、検索精度を向上させるため、擬似関連フィードバックと呼ばれる手法を導入した。英文論文画像を対象とした実験の結果、従来の代表的な電子テキスト検索法に比べて精度の向上が見られた。 3.電子文書の情報素材への分解 電子文書生成への第一歩として、プロフィール情報を対象とした情報抽出法を考案した。提案手法の特徴は、従来のように個別属性値の抽出だけではなく、得られた属性値を個人のプロフィール情報へと統合する点にある。これにより、文書の様々な箇所で断片的に書かれている情報がまとめられ、より充実した情報を抽出できる。新聞データ1ヶ月分を対象とした実験の結果、改良の余地はあるものの有効性を示すことができた。
|
Research Products
(6 results)
-
[Publications] Koichi Kise: "Spotting Where to Read on Pages -Retrieval of Relevant Parts from Page Images"Proc. of 5^<th> Int'l Workshop on Document Analysis Systems. 388-399 (2002)
-
[Publications] 黄瀬 浩一: "文書画像データベースの検索に関する一考察"科学技術分野における電子的情報処理に関する研究集会予稿集. 91-96 (2002)
-
[Publications] 吉谷 仁志: "単語の頻度と位置に基づくプロフィール情報の抽出"情報処理学会第65回全国大会講演論文集. (発表予定). (2003)
-
[Publications] 尹 沃棠: "単語の2次元分布に基づく擬似関連フィードバックを用いた文書画像検索"情報処理学会第65回全国大会講演論文集. (発表予定). (2003)
-
[Publications] Koichi Kise: "Stippling Data on Backgrounds of Pages -Toward Seamless Integration of Paper and Electronic Documents"Proc. of 7^<th> Int'l Conf. on Document Analysis and Recognition. (発表予定). (2003)
-
[Publications] Koichi Kise: "Document Image Retrieval Based on 2D Density Distributions of Terms with Pseudo Relevance Feedback"Proc. of 7^<th> Int'l Conf. on Document Analysis and Recognition. (発表予定). (2003)