本研究の主たる目的は「ユーザの文書用途に関するコンテクスト」に基づいてWebページを半構造化し、後の検索に役立てるシステムの設計と実装を目的としている。コンテクストの取得のためにはシステムが (1)ユーザがページのような意図で閲覧していたか認識できる (2)ページの内容の意味的な把握が可能である という二つの機能を有することが必要であると考えられる。これらの機能を実現するためには様々な要素技術が必要である。また、その中でも既存の技術では実現されていないものは我々自身で開発せねばならない。こうした問題点を明確にするために我々は始めにUML(Unified Modeling Language)を用いてシステムの概念設計を行った。 設計を行った結果、以下の問題点が明らかになった。本システムの機能(1)を実現するにあたってはユーザインタフェースの設計がシステムの性能を左右する。ユーザは様々な意図を持ってページを閲覧する。こうした多様な意図をあらかじめ全て想定することは不可能であると思われる。次に(2)の問題についてであるが、文章の半構造化に関して我々は新しい手法を研究中である。この手法は自然言語的な意味理解とキーワードの出現頻度を用いた意味抽出手法の中間に位置する。文章の種類を決定する「構造語」と文章の内容を表す「内容語」によって文章のパターンを特定し、半構造化する、という方針を立てた。しかしながらこうしたパターンの多様性もまた事前に全て想定することが不可能である。 こうした問題を現実的なやり方で解決すべく、我々はシステムに容易な方法で柔軟な拡張を可能とする機能を付加する方針を立てた。拡張にはシステムに新しい機能をもたらす拡張と、システムの扱うデータのモデルの拡張が考えられる。前年度では前者の拡張性に重点を置き、システムのコンポーネントの整合的な組み合せの問題に関する業績をあげることに成功した。
|