2003 Fiscal Year Annual Research Report
大規模WEBコンテンツの分類及びXMLへの変換と高機能XML文書管理システム
Project/Area Number |
15017242
|
Research Institution | University of Yamanashi |
Principal Investigator |
岩沼 宏治 山梨大学, 大学院・医学工学総合研究部, 教授 (30176557)
|
Co-Investigator(Kenkyū-buntansha) |
渡辺 喜道 山梨大学, 大学院・医学工学総合研究部, 助教授 (00210964)
福本 文代 山梨大学, 大学院・医学工学総合研究部, 助教授 (60262648)
|
Keywords | WEB / 情報検索 / 続報記事 / 時間差分検出 / HTML / XML / 文書管理 / ラッパー |
Research Abstract |
本研究では大規模WEBコンテンツの知的な機械処理を可能とすることを目的として、以下の一連の研究を行った 1.大規模・不均質なWEBコンテンツの言語情報に利用による高精度な自動分類技術の開発。 より具体的には、日々更新されるWEBデータにおける話題の推移に基づく文書の自動分類法、およびWEBデータコーパスにおける分野名の誤りの自動検出・修正法を提案した。 2.類似したWEBコンテンツを対象とする情報抽出とXMLへの半自動変換。 より具体的には、少数の事例に基づくHTML文書ラッパーの自動合成法の提案と、老若男女誰でも使えるユーザインタフェースを持つシステムを実装を行った。 3.複数XML文書の併合と可視化・意味一貫性管理などの高度な機械処理法と統合管理環境。 より具体的には、XML文書を構成するコンポーネント間に意味的な依存関係を定義し、それに基づき一貫性のある文書を構成することに成功した。またシステムを実装し、介護サービスの割当てケアプラン実施支援システムへの適用している。
|
-
[Publications] 福本文代, 鈴木良弥, 山田寛康: "話題の推移に基づく続報記事の自動抽出"情報処理学会論文誌. 44・7. 1766-1777 (2003)
-
[Publications] N.Nakamura, K.Iwanuma, H.Nabeshima: "Detecting Two Sorts of Correspondences between HTML Documents for Extracting Temporal Differences"Proceedings of the Third IASTED International Conference on Artificial Intelligence and Applications (AIA2003). 611-616 (2003)