2010 年度実績報告書

Webデータに対する情報検索における情報単位に関する研究

研究課題

研究課題/領域番号	22700248
研究機関	同志社大学
研究代表者	波多野賢治同志社大学, 文化情報学部, 准教授 (80314532)
キーワード	検索エンジン / 情報単位 / 文書構造 / 文書間構造
研究概要	本年度の最初のステップは,構造化文書の文書構造および文書間に張られているリンクを意識した新しい検索単位である情報単位を抽出することである.申請者はこれまで検索システム利用者が入力する問合せに適合する部分文書を,構造化文書の文書構造から抽出する研究を続けているが,本年度はそうして抽出された部分文書に対し,リンクでつながっているという事実を用いて情報単位を同一文書内にとどまらず,複数文書間にまで拡張することを考えた. これまで申請者が行ってきた研究では,構造化文書内の各ノードに含まれている索引語に対し,文書の論理構造を基にした統計量を利用した重み付けを行っていた.これに対し,本申請における提案では,そうして重み付けされた各ノードに対し,構造化文書間に張られているリンクを考慮してノード間に新たなエッジを付与し,文書ノード間を文書構造エッジとリンク構造エッジの二種類でネットワークを構成することで,ノードに重みが付与されたネットワークをネットワーク分析手法によって分析し,クリークを発見することで新しい検索単位である情報単位を抽出した.この手法により情報単位の抽出は可能となったが,予想通り,情報単位の抽出には多くの時間を要するという問題が生じた.そのため,並行して別のWeb文書情報単位抽出技術の提案も行った.この手法はWeb文書内の各ノードに含まれている索引語に対し,影響度というWeb文書内の出現位置を考慮した重みを与え,その重みの重なりを利用して情報単位を抽出する手法である.この手法も現時点では抽出に時間を要するが,その問題となっている点は既に計算複雑性理論の研究において効率的に解けることが判明しており,それを元に効率のよいWeb文書情報単位抽出技術を開発できる可能性がある点が優位であることがわかった.

研究成果
(8件)

すべて 2011 2010

すべて雑誌論文 (2件) (うち査読あり 2件) 学会発表 (6件)

[雑誌論文] 有益な検索結果提示のための部分文書再構成手法の提案2011
- 著者名/発表者名
  欅惇志, 波多野賢治, 宮崎純
- 雑誌名
  
  情報処理学会論文誌:データベース
  
  巻: Vol.4, No.1 ページ: 1-13
- 査読あり
[雑誌論文] A Query-oriented XML Fragment Search Approach on A Relational Database System2010
- 著者名/発表者名
  A.Keyaki, K.Hatano, J.Miyazaki
- 雑誌名
  
  Journal of Digital Information Management
  
  巻: Vol.8, No.3 ページ: 175-180
- 査読あり
[学会発表] Webテキストにおける内容密度分布の抽出とその評価2011
- 著者名/発表者名
  北原沙緒理, 田村航弥, 波多野賢治
- 学会等名
  第3回データ工学と情報マネジメントに関するフォーラム
- 発表場所
  ラフォーレ修善寺(静岡県)
- 年月日
  2011-02-27
[学会発表] リンク情報に基づく周辺文書の索引語尤度を考慮した文書検索手法の提案と評価2011
- 著者名/発表者名
  田村航弥, 波多野賢治, 宿久洋
- 学会等名
  第3回データ工学と情報マネジメントに関するフォーラム
- 発表場所
  ラフォーレ修善寺(静岡県)
- 年月日
  2011-02-27
[学会発表] A Result Reconstruction Method for Effective XML Fragment Search at INEX 20102010
- 著者名/発表者名
  A.Keyaki, K.Hatano, J.Miyazaki
- 学会等名
  INEX 2010 Workshop
- 発表場所
  House of Bergen, Vught
- 年月日
  2010-12-13
[学会発表] Result Reconstruction Approach for More Effective XML Fragment Search2010
- 著者名/発表者名
  A.Keyaki, K.Hatano, J.Miyazaki
- 学会等名
  The 12th International Conference on Information Integration and Web-based Applications & Services
- 発表場所
  IUFM University Cergy-Pontoise, Gennevilliers
- 年月日
  2010-11-09
[学会発表] 再構成されたXML部分文書に対するランキング手法の提案2010
- 著者名/発表者名
  欅惇志, 波多野賢治, 宮崎純
- 学会等名
  電子情報通信学会WI2研究会第18回Webインテリジェンスとインタラクション研究会
- 発表場所
  国際佐渡観光ホテル八幡館(新潟県)
- 年月日
  2010-09-16
[学会発表] Characterizing Web Pages based on the Query Likelihoods of Neighboring Pages2010
- 著者名/発表者名
  K.Tamura, K.Hatano, H.Yadohisa
- 学会等名
  The 5th International Conference on Digital Information Management
- 発表場所
  Lakehead University, Ontario
- 年月日
  2010-07-07

2010 年度 実績報告書

Webデータに対する情報検索における情報単位に関する研究

研究代表者

波多野 賢治 同志社大学, 文化情報学部, 准教授 (80314532)

研究成果

[雑誌論文] 有益な検索結果提示のための部分文書再構成手法の提案2011

著者名/発表者名

雑誌名

[雑誌論文] A Query-oriented XML Fragment Search Approach on A Relational Database System2010

著者名/発表者名

雑誌名

[学会発表] Webテキストにおける内容密度分布の抽出とその評価2011

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] リンク情報に基づく周辺文書の索引語尤度を考慮した文書検索手法の提案と評価2011

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] A Result Reconstruction Method for Effective XML Fragment Search at INEX 20102010

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] Result Reconstruction Approach for More Effective XML Fragment Search2010

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] 再構成されたXML部分文書に対するランキング手法の提案2010

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] Characterizing Web Pages based on the Query Likelihoods of Neighboring Pages2010

著者名/発表者名

学会等名

発表場所

年月日

2010 年度実績報告書

波多野賢治同志社大学, 文化情報学部, 准教授 (80314532)