2013 年度実績報告書

ブロックレベルWebページ検索の研究

研究課題

研究課題/領域番号	13J06384
研究機関	京都大学
研究代表者	真鍋知博京都大学, 情報学研究科, 特別研究員(DC1)
キーワード	構造化文書 / 文書構造抽出 / 見出し抽出 / テキストセグメンテーション / Web閲覧支援 / Web検索
研究概要	本年度においては, 大別して以下の三つの成果が得られた. 【1. Webページ中の階層的見出し構造に関するデータセットの作成】実用的なブロックレベルWebページ検索のためには, ページの構造の理解が必要である. 本研究では, 見出しによる分割により得られるブロック構造の一種, 見出し構造に注目し, 考察を深めた. 当該構造に注目している先行研究は少ないため, その大規模なデータセットも知られていない. そこで本研究では, 考察の過程で, 5名の被験者の手で1,100ページの見出し構造を手動で抽出した. これは, 広く知られたTREC Web Track4年分の全適合文書(Wikipediaを除く)の約1/7に相当し, 十分なサイズである. 【2. Webページ中の階層的見出し構造の抽出手法の全面的改善】研究計画において, 見出し構造の抽出精度は, Webページ検索結果のリランキングにより間接的に評価すると述べた. しかし, 上述のデータセットの作成により, これまで困難であった当該の精度の直接的で信頼性が高い測定が可能となった. ブロックレベル検索をはじめとする応用のためには, 精度の高い手法が望ましい. そこで本研究では, 既に提案済の基本的な抽出手法をいくつかの段階に分割し, 各段階における精度を測定し, それに基づいて各段階を改善することで, 抽出手法全体の精度向上に成功した. 【3. ブロックレベルWebページ検索システムのプロトタイプの作成】 Webページ検索システムに関する有名なワークショップとしては, 上述のTRECの他, NTCIRが存在する. 本年度のNTCIRにおいては, キーワードクエリに対し短文で応答するICLICK-2タスクが設けられており, これは文字数の削減の点でブロックレベル検索と関係が深い. そこで本研究においては, ブロックレベルWebページ検索システムのプロトタイプを作成し, 研究代表者が所属する研究室のシステムの一部として提案した. これにより, クエリ種別による精度の差など, '実用化までの課題の一部が明らかになった.
現在までの達成度 (区分)	現在までの達成度 (区分) 2: おおむね順調に進展している理由本年度においては, 研究成果の査読付き会議録や論文誌への採録が叶わず, この点において研究成果を支持する材料が十分に得られたとは言い難い. 一方, データセットの作成や検索システムのプロトタイプの作成の点では, 期待を超えて研究が進展したと言える. これらを総合すると, 本研究は全体としておおむね順調に進展している.
今後の研究の推進方策	本年度の研究成果の査読付き会議や論文誌への採録に関しては, 来年度早い段階での実現を目指す. すでに二度の投稿を経て草稿は完成しており, 再投稿による来年度の研究計画への影響は小さい. 来年度はブロック間の関係の考察, 関係がユーザの閲覧行動に与える影響の記録, 関係抽出手法の開発などを行う予定である.

研究成果
(3件)

すべて 2013 その他

すべて学会発表 (1件) 備考 (2件)

[学会発表] Information Extraction based Approach for the NTCIR-10 1CLICK-2 Task2013
- 著者名/発表者名
  Tomohiro Manabe, Kosetsu Tsukuda, Kazutoshi Umemoto, Yoshiyuki Shoji, Makoto P. Kato, Takehiro Yamamoto, Meng Zhao, Soungwoong Yoon, Hiroaki Ohshima and Katsumi Tanaka
- 学会等名
  The 10th NTCIR Workshop Meeting on Evaluation of Information Access Technologies
- 発表場所
  National Institute of Informatics, Tokyo, Japan
- 年月日
  2013-06-21
[備考] TanakaLaboratory :
- URL
  http://www.dl.kuis.kyoto-u.ac.jp/
[備考] 真鍋知博 MANABE, Tomohiro :
- URL
  http://ww.dl.kuis.kyoto-u.ac.jp/~manabe/

2013 年度 実績報告書

ブロックレベルWebページ検索の研究

研究代表者

真鍋 知博 京都大学, 情報学研究科, 特別研究員(DC1)

現在までの達成度 (区分)

理由

研究成果

[学会発表] Information Extraction based Approach for the NTCIR-10 1CLICK-2 Task2013

著者名/発表者名

学会等名

発表場所

年月日

[備考] TanakaLaboratory :

URL

[備考] 真鍋 知博 MANABE, Tomohiro :

URL

2013 年度実績報告書

真鍋知博京都大学, 情報学研究科, 特別研究員(DC1)

[備考] 真鍋知博 MANABE, Tomohiro :