研究概要 |
本年度においては, 大別して以下の三つの成果が得られた. 【1. Webページ中の階層的見出し構造に関するデータセットの作成】 実用的なブロックレベルWebページ検索のためには, ページの構造の理解が必要である. 本研究では, 見出しによる分割により得られるブロック構造の一種, 見出し構造に注目し, 考察を深めた. 当該構造に注目している先行研究は少ないため, その大規模なデータセットも知られていない. そこで本研究では, 考察の過程で, 5名の被験者の手で1,100ページの見出し構造を手動で抽出した. これは, 広く知られたTREC Web Track4年分の全適合文書(Wikipediaを除く)の約1/7に相当し, 十分なサイズである. 【2. Webページ中の階層的見出し構造の抽出手法の全面的改善】 研究計画において, 見出し構造の抽出精度は, Webページ検索結果のリランキングにより間接的に評価すると述べた. しかし, 上述のデータセットの作成により, これまで困難であった当該の精度の直接的で信頼性が高い測定が可能となった. ブロックレベル検索をはじめとする応用のためには, 精度の高い手法が望ましい. そこで本研究では, 既に提案済の基本的な抽出手法をいくつかの段階に分割し, 各段階における精度を測定し, それに基づいて各段階を改善することで, 抽出手法全体の精度向上に成功した. 【3. ブロックレベルWebページ検索システムのプロトタイプの作成】 Webページ検索システムに関する有名なワークショップとしては, 上述のTRECの他, NTCIRが存在する. 本年度のNTCIRにおいては, キーワードクエリに対し短文で応答するICLICK-2タスクが設けられており, これは文字数の削減の点でブロックレベル検索と関係が深い. そこで本研究においては, ブロックレベルWebページ検索システムのプロトタイプを作成し, 研究代表者が所属する研究室のシステムの一部として提案した. これにより, クエリ種別による精度の差など, '実用化までの課題の一部が明らかになった.
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
本年度においては, 研究成果の査読付き会議録や論文誌への採録が叶わず, この点において研究成果を支持する材料が十分に得られたとは言い難い. 一方, データセットの作成や検索システムのプロトタイプの作成の点では, 期待を超えて研究が進展したと言える. これらを総合すると, 本研究は全体としておおむね順調に進展している.
|
今後の研究の推進方策 |
本年度の研究成果の査読付き会議や論文誌への採録に関しては, 来年度早い段階での実現を目指す. すでに二度の投稿を経て草稿は完成しており, 再投稿による来年度の研究計画への影響は小さい. 来年度はブロック間の関係の考察, 関係がユーザの閲覧行動に与える影響の記録, 関係抽出手法の開発などを行う予定である.
|