研究概要 |
平成14年度はアライメント技術を駆使した複数の事例文書の選択利用技術を開発し,学習機能を持つ対話型変換支援システムの基礎技術を開発した。また事例文書との類似性判定技術を応用して,WWW上のHTML文書の時間的な変化データを自動抽出する技術を開発した.具体的には 1.複数の事例学習による変換の精密化:対話変換支援型システムでは,修正の過程を通してXMLへの変換を次第に精密化していく学習機能を持たせる必要があり、複数の事例の中から適切な事例を選択する技術が必要不可欠である。そのための文書全体のアライメント技術に基づく事例選択法を開発した。 2.レイアウト解析を目的とした表の構造認識:近年のHTML文書では,レイアウトを指定するために,表を示す<table>タグが多用される.現実のHTML文書の類似性を判断するためには,このような表の入れ子構造の類似性を認識することが必要であり、アライメントにおける表解析技術を開発した。 3.HTML文書の時間的な差分データの自動抽出システムへの応用:時間の経過と共に変化していった文書群は相互に大変類似しており,シリーズ型の文書と見なせる.これらの差分の検出は実用的にも非常に重要である.本研究で開発した事例と変換対象2つのHTML文書の類似性を判定する技術を応用してシステムを開発した。 以上の成果を既に学会論文誌と国際会議に発表している。また以下の口頭発表を行なった.現在,更に2編を発表準備中である。 (1)中村正人、岩沼宏治、鍋島英知:時間差分検出を目的とするHTML文書間の種々の対応関係の検出法、情報アクセスのためのテキスト処理シンポジウム発表論文集pp.17-24(電子情報通信学会言語理解とコミュニケーション研究会)2003
|