研究概要 |
第1年度の主たる目標は,データベース概念学習の手法を稠密連続領域に拡張し、時制的なデータベースの振舞いに関する知識獲得法とそれに基づくモデル化法を開発することにあった.また,振舞いに関する知識操作を達成するための言語系を設計するため、メタレベル化や抽象化・集約技法の基本機能を明らかにするねらいを有するものであった.第2年度では,第1年度の結果を踏まえ,特にデータストリームに対して適用した.時制データからの知識発見では,データに時間への依存性があるため,得られる知識は時制を伴う点で特徴的である.時制情報は一般属性とは別に扱われる.実際,順序を持ち,時制情報は記号列,離散的である場合と時系列として連続,実数値で表される場合がある.ここでは,時制に特化したデータの表現方式,類似性の検出基準,分類・関連性の発見が問題となる. 時制データ列の類似性については,時制データの傾向が局所的に変化するというデータストリームの特性ゆえに検出が容易ではなく,ストリームに対応した多変量解析技術の利用,データ分類・クラスタリングなどはほとんど研究が無い.このため,本研究では,簡潔で高信頼決定木や拡張自己組織化マップTaxSOM(k)など従来の分類技術の高度化に加え,ストリームデータのクラスタ化手法の提案,ニューステキストに対する高精度な分類技術の確立などを提案した.加えて長期にわたる情報システムの仕様の変換を提案した. はじめに,時制データベースのスキーマ,とくに時制クラスの獲得技法を発展させ,ストリームデータのクラスタリング手法を示した.これによりクラスとクラスタの自動抽出が可能になった.これと同時に,データの自動分類手法として代表的な決定木を拡張し,クラス階層と選言クラスを用いた生成に加え、Kullback Leibler Divergenceに基づく決定木の枝刈り手法を示し,両者の手法を組み合わせることで,簡潔で信頼性の高い決定木が生成できることを示した.クラスタ化との関連では、教師なしクラスタリング手法として代表的な自己組織化マップ(SOM)を拡張し、クラス分類とクラスタリングの対応を行うTaxSOMを提案し、その有効性を示した. 本研究の発展的な応用として2つを論じた。まず,配信ニュースデータの自動分類が,類義語を扱うベイズ学習手法に基づいで行えることを示し,ニュースストリームへの感用を探った.もう一つは、時制データを広義に捕らえ,過去に開発された情報システムの仕様記述を,新たな時間からできるだけ自動的に解釈しなおし変換する可能性を論じ、発見的ではありながら,ツール化をしているため,現実への効果が強く期待されるものである. これはメタデータの操作と知識獲得技術の応用という観点から情報システム開発技術に新たな視点を与えるものである.データベースの自動設計や自動保守を行うという観点に立つため,過去の他の研究とは大きく異なったものとなる.
|