2003 Fiscal Year Annual Research Report
Project/Area Number |
14580453
|
Research Institution | Osaka Prefecture University |
Principal Investigator |
黄瀬 浩一 大阪府立大学, 工学研究科, 助教授 (80224939)
|
Keywords | 情報検索 / 情報リサイクル / 文書解析 / 文書画像検索 / 情報抽出 / WWW / 画像検索 / データ埋め込み |
Research Abstract |
今年度の研究により得られた成果を以下にまとめる。 1.電子文書の部分テキスト検索 検索質問に適合する部分を電子文書から切り出す検索(部分テキスト検索)を取り上げ、出現密度法と呼ぶ手法を提案した。英文文書に対する実験の結果、従来法と比べて提案手法は、長い文書の検索だけではなく短い検索質問を用した検索についても優位性が示された。 2.文書画像検索の高精度化・高機能化 上記の出現密度法を2次元平面上に拡張した部分画像検索手法を提案した。提案手法の特徴は、ページの中で検索質問に関連の深い部分を提示できる点にある。英文論文に対する実験により有効性を検証した。また、この手法を簡略化とし、ページの物理構造に基づく索引付け手法を提案した。比較実験の結果、文書単位の索引付けを行う従来法に対して優位性を示した。また、この部分画像検索法に基づいて質問応答システムを設計し、基礎実験を行った。質問応答システムとは、自然言語の問いに対して回答が含まれる部分を提示できるシステムである。実験では、平均して2位までに回答を得ることができた。 3.電子文書からの情報抽出 電子文書から得た情報をリサイクルする一手法として情報抽出を取り上げて検討した。対象は人物プロフィール情報である。提案手法の特徴は、固有表現抽出とプロフィール情報の切り出しにSVMを用いる点にある。約7000記事を対象とした実験の結果、有効性が確認された。また、上記の手法をWebにも適用可能なように拡張するための基礎的検討を行った。検討項目は、フィルタリング(プロフィール情報を含むWebページの取り出し)、切り出し(プロフィール情報を含む部分の切り出し)である。800ページに対する実験により有効性を確認した。 4.キーワードに基づく画像検索の基礎的検討 電子文書に含まれる画像を有効利用するために、テキストによって説明を受けている画像を選別する手法を提案した。
|
Research Products
(13 results)
-
[Publications] 吉谷 仁志: "テキストのセグメンテーションとクラスタリングに基づくプロフィール情報の抽出"第2回情報科学技術フォーラム講演論文集. 第2分冊. 93-94 (2003)
-
[Publications] 黄瀬 浩一: "文書余白領域のデータの点描"清報技術レターズ. 201-202 (2003)
-
[Publications] 黄瀬 浩一: "物理構造に基づく文書画像の索引付けと検索"清報技術レターズ. 203-204 (2003)
-
[Publications] Koichi Kise: "Indexing and Retrieval of Document Images Using Term Positions and Physical Structures"Proc.of the Third International Workshop on Document Layout Interpretation and Its Applications. 19-22 (2003)
-
[Publications] Koichi Kise: "Document Image Retrieval Based on 2D Density Distributions of Terms with Prseudo Relevance Feedback"Proc.of the 7th International Conference on Document Analysis and Recognition. 488-492 (2003)
-
[Publications] Koichi Kise: "Stippling Data on Backgrounds of Pages - Toward Seamless Integration of Paper and Electronic Documents"Proc.of the 7th International Conference on Document Analysis and Recognition. 1213-1217 (2003)
-
[Publications] Koichi Kise: "Effectiveness of Passage-Based Document Retrieval for Short Queries"IEICE Trans.on Information and Systems. E86-D・9. 1753-1761 (2003)
-
[Publications] 吉谷 仁志: "SVMとベクトル空間モデルを用いたプロフィール情報の抽出"平成15年電気関係学会関西支部連合大会講演論文集. G245 (2003)
-
[Publications] 福嶋 祥太: "文書画像に対する質問応答システムの提案"平成15年電気関係学会関西支部連合大会講演論文集. G247 (2003)
-
[Publications] 吉谷 仁志: "サポートベクトルマシンを用いたプロフィール情報の抽出"情報処理学会研究報告 自然言語処理. 2004・1. 7-12 (2004)
-
[Publications] 福嶋 祥太: "文書画像に対する質問応答システムIQAS"電子情報通信学会技術研究報告パターン認識・メディア理解. 103・658. 13-18 (2004)
-
[Publications] 大前 信弘: "Webを対象としたプロフィール情報抽出の基礎的検討"情報処理学会第66回全国大会講演論文集. 第3分冊. 73-74 (2004)
-
[Publications] 芝野 博誠: "Webページからの説明付き画像の選択"情報処理学会第66回全国大会講演論文集. 第3分冊. 77-78 (2004)