研究課題/領域番号 |
13J06384
|
研究種目 |
特別研究員奨励費
|
配分区分 | 補助金 |
応募区分 | 国内 |
研究分野 |
メディア情報学・データベース
|
研究機関 | 京都大学 |
研究代表者 |
真鍋 知博 京都大学, 情報学研究科, 特別研究員(DC1)
|
研究期間 (年度) |
2013-04-01 – 2016-03-31
|
研究課題ステータス |
完了 (2015年度)
|
配分額 *注記 |
3,300千円 (直接経費: 3,300千円)
2015年度: 1,100千円 (直接経費: 1,100千円)
2014年度: 1,100千円 (直接経費: 1,100千円)
2013年度: 1,100千円 (直接経費: 1,100千円)
|
キーワード | 構造化文書 / 見出し抽出 / Web検索 / 近接検索 / サブトピック / 半構造化文書 / 文書構造抽出 / テキストセグメンテーション / Web閲覧支援 |
研究実績の概要 |
本年度においては,大別して以下の二つの成果が得られた. 【1. 階層的見出し構造を考慮した近接検索】 検索に関し,意味単位間の関係を利用する既存手法として,近接検索が挙げられる.これは,語の出現の間の関係の強さを,その間の語数(距離)で測り,その出現を含む文書のスコアリングのために考慮するものである.これに対し本研究のアイデアは,語の出現の間にすでに特別な関係がある場合,その関係の強さは単純な距離ではなく距離の関数が反映するというものである.このアイデアに基づき本研究では,特別な関係として (1) 見出し中の出現とその対応するブロック中の出現という関係と,(2) 互いに異なるブロック中にある出現同士という関係に着目し,それぞれ関係の強さを距離の一次関数で測る手法を提案した.パラメータ最適化と評価によれば,提案手法は既存の近接検索手法をしのぐ性能を達成した. 【2. 階層的見出し構造に基づくサブトピックランキング】 キーワードクエリのサブトピックとは,元のクエリの意図を特化または明確化する意図をもつ別のクエリである.検索システムにとって,サブトピックは,クエリ補完・推薦の出力として有用であり,また複数の意図を同時に満たす検索結果を生成するためにも有用である.これらの応用のため,サブトピックを,ユーザがその意図をもつ確率(意図率)によってランキングすることが必要である.この問題を解くための本研究のアイデアは,Webページ中の階層的見出しはサブトピックに類似し,またブロックの記述量はその対応する階層的見出しが表すサブトピックの意図率を反映するというものである.このアイデアに基づき本研究では,あるサブトピックを,それを含む階層的見出しに対応する全てのブロックの記述量に基づき,ランキングする手法を提案した.評価によれば,提案手法は商用検索システムのクエリ補完・推薦をしのぐ性能を発揮した.
|
現在までの達成度 (段落) |
27年度が最終年度であるため、記入しない。
|
今後の研究の推進方策 |
27年度が最終年度であるため、記入しない。
|