Research Abstract |
差異にも考慮したWebコンテンツ融合のために,複数コンテンツの時間的・意味的差異を抽出する手段とそれを用いて融合されたコンテンツを表現・提示する手段について研究を行った. 第一には,Web上の複数文書集合全体(例えばサーチエンジンの検索結果)に対して,類似しているところはより強調し,同時に異なる見解もその対比が明確になるような表現方法を考案して一度に閲覧できるようにした.複数文書を1つの文書に要約する手法は様々あるが,意味まで解析していないために言い回しの違いを吸収できない,パターンマッチングを用いるために適用分野が限定される,機能のみが違う語を無視する,などの問題がある。そこで我々は,自然言語処理により文書を要約し,「重要な部分を強調し,重要ではない部分も同時に提示する」手法を提案した.本手法により,多くの情報を持った新聞記事の自動生成が可能である.また,融合された文書内容と同時に「元の文書それぞれがどのような内容を含んでいたか」を提示する事が可能なので,新しい検索エンジンインターフェースの構築も可能である. 第二に,コンテンツの時間変化を前提とし,その差異に注目してWebコンテンツ(XML)を柔軟に管理・利用する方法として,XMLの更新に伴う差異情報をその半構造性に適した形式で抽出し,効率的な格納アクセス配信を可能とする技術を開発した.分散環境でデータ管理が行われている昨今では,版管理をする上でブランチ機能を持つことが重要であると考えられる.ブランチ機能とはある一つのバージョンから複数の異なるバージョンを作り出す事で,複数の開発者が平行して作業を行う際に有用である.我々はブランチを持つバージョン系列が木構造である事に着目し,木構造のラベリング手法を考案し,それを適用して版管理機能の実現を行った.
|