研究課題/領域番号 |
13J06384
|
研究機関 | 京都大学 |
研究代表者 |
真鍋 知博 京都大学, 情報学研究科, 特別研究員(DC1)
|
研究期間 (年度) |
2013-04-01 – 2016-03-31
|
キーワード | 半構造化文書 / 文書構造抽出 / 見出し抽出 / テキストセグメンテーション / Web閲覧支援 / Web検索 |
研究実績の概要 |
本年度においては,大別して以下の二つの成果が得られた. 【1. ブロックベースの Webページランキング手法の開発】 本研究における目標の一つとして,Webページ中のブロック間の関係の整理を挙げていたところである.本年度においては,これら関係のうち,前年度に開発した抽出手法により既に明らかになった関係(例:親,子,先祖,子孫など)につき,その重要度を推測するため,ブロックベースのエビデンスを用いた Webページランキング手法を開発し評価した.ブロックベースのエビデンスとしては,当該ブロック自体の見出しや内容の他,当該ブロックからある関係にあるブロックの見出しや内容を用いた.これらのエビデンスの重みを最適化することで,各関係の重要度を推測することができた.また,ブロックレベルのエビデンスが,ページレベルのランキングにも有用であることを示すことができた. 【2. ブロックベースの Webページの要約生成手法の開発】 本研究においては,ユーザがキーワードクエリを入力し,それらキーワードを一連の関係の中に含む Webページまたはブロックを返すというキーワード検索システムを想定していたところである.キーワードの出現が互いに関連するか否かを判断する方法として,機械的に判断する手法もあるが,Webページの要約を元にユーザに判断させる方法もあり,これらを併用することが一般的である.今年度においては,見出しとその他の部分を分けて表示することで,キーワードの出現の間の関係を判断しやすい要約を生成する手法を開発し評価した.特にキーワード数が多い場合において,提案手法はベースラインをしのぐ精度を達成した.
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
本年度においては,研究成果の査読付き会議録や論文誌への採録が叶わず,この点において研究成果を支持する材料が十分に得られたとは言い難い.一方,関係の重要度推定の過程で関係を考慮したブロックランキング手法のプロトタイプを作成できた点や,関係を判断しやすい要約の生成手法を開発できた点においては,期待を超えて研究が進展したと言える.これらを総合すると,本研究は全体としておおむね順調に進展している.
|
今後の研究の推進方策 |
来年度はブロックレベルの適合判定データセットの作成,関係を考慮したブロックランキング手法の完成と評価,および検索タスクの end-game フェイズ(検索意図に関連があると思われる webページ全体をユーザが実際に閲覧するフェイズ)における見出し構造を利用したユーザ補助手法の開発と評価などを行う予定である.
|