研究概要 |
平成21年度は,主に2つのテーマについて研究成果を得た.1つ目は,動的コンテンツも含めた部分情報抽出法と連携手法の開発,2つ目はRSSに基づき構造変動に左右されないニュース記事の本文抽出法の開発を行った. 従来の部分情報抽出は静的に存在するテキスト,静止画,動画,音声などを対象とし,スクリプトが動的に生成する部分の抽出は対象外であったが,指定した部分以外を非表示にすることにより,これらのスクリプトが動的に生成する部分を抽出する手法を開発した.ユーザは抽出したい部分を指定するだけで,システムは指定部分を検索し,表示する部分と表示しない部分を決定する.また,抽出した部分の間のデータの受け渡しの定義方式の導入により,複数の抽出部分を連携動作させることが可能となった.さらに,従来の静的コンテンツの抽出手法と組み合わせることにより,柔軟な部分情報抽出と抽出した部分の間の連携が可能となった. また,RSSを利用したニュース記事の本文抽出手法を開発した.RSSから取得したタイトルを利用して記事本文の位置を特定し,抽出する.関連手法は機械学習等を利用して事前にレイアウトを分析し,抽出箇所を決定するが,サイトごとに学習・分析が必要であり,また,突然のレイアウト変更に対応できないという問題がある.本手法は対象ページのレイアウトに依存しないため,異なるレイアウトを持つニュースサイトに対しても同じ手法を適用可能であり,さらに突然のレイアウト変更があっても継続して本文抽出が可能という特徴を持つ.
|