研究概要 |
知識無しにHTML文書をXMLへ変換することは,人間にとっても困難な作業である.各HTMLシリーズに対して個別に変換事例を与えることは,シリーズ固有の意味構造と知識を与えることに相当し,非常に自然で,実際的な手法である.平成13年度には以下の研究を行ってきた 1.事例に基づく試作システムの開発と改良:既存の殆どのHTML文書処理システムは,<H>タグで指定される見出し語を抽出・利用して,機械処理を行っている.しかし現実のHTML文書では見出しの表示法は多様で,<H>タグは殆ど利用されていない.そこで我々は<H>タグを利用せず,文字修飾用タグを考慮したTF-IDF重み付けを行い,それにより見出し語情報の抽出を行った.また表現の揺れを吸収するためにシソーラスを導入し,更に意味を表す項ベクターモデルの対雑音性を上げるために,TF-IDFを用いた重要語の絞り込みを行った.これらの効果を実証的に検証した 2.アライメンによる論理・意味ブロックの同定:シリーズ中の文書間には必ず記述の追加・欠落,分量の変化がある.その揺れを吸収するためには,文書の論理・意味的な構造を解析し,その上で相似性を判定する必要がある.我々は,蛋白質や遺伝子の配列解析に使用されるアライメント技術に着目し,事例に基づく意味ブロックの抽出へ適用を試みた.より具体的には,事例文書の意味プロックは既知であることから,事例と変換対象文書のアライメントにより,変換対象のHTML文書中の論理的・意味的ブロックを同定・抽出できる.検証実験により90%を超える変換精度が得られることを確認した. 以上の成果は既に一編を学会論文誌に発表済であり,また以下の(1)と(2)を口頭発表している.更に2編を国際会議と論文誌へ投稿中である. 参考文献 (1)鈴木,岩沼,梅原:シリーズ型HTML文書群の事例ベース変換におけるオフライン処理による検索語の絞りこみ,電子情報通信学会技術研究報告人工知能と知識処理,AI2000-70(2001) (2)梅原,岩沼,鍋島:HTMLからXMLへの事例ベース変換における複合テキストブロックの取扱い,電子情報通信学会技術研究報告データ工学研究会,DE2001-6(2001)
|