研究課題
収集したデータの分析は、データを分類することを基本とする。一般にデータの分類は木構造で行われ、データは終端クラス(最も細かく分類したもの)のいずれか1つに属すことが仮定される。しかし収集したデータが多様であれば、このような仮定では分類を行うことができない。例えば、日本全体に関するデータは、東京や大阪といった都市レベルでの分類はできなず、東京と大阪の比較を行ったデータに対して東京と大阪の両方に関するクラスを作るとクラスの数が多くなり現実的でない。今年度は、前年度に提案したこれらに対処する分類階層の基本構造に対して厳密な形式的定義を与え、実際の利用時の問題点を解決するための手法を提案した。複数の意味を持つデータに対しては、重複してクラスに属させる方法を採用する。東京と大阪の比較を行ったデータは、東京に関するデータのクラスと大阪に関するデータのクラスの両方に属させることになる。この方法は直感的に理解しやすく、実現にあたって現実的なものであるが、2つの問題が生じる。すなわち、クラスの下位概念でないデータがクラスに属することになり、東京に関するデータのクラスには、東京の下位概念ではない"東京と大阪"の意味のデータが含まれる。また、データの重複が生じるため、日本に関するデータを求める際に、下位概念のクラスの和集合では重複を除く処理が必要となり、効率的でない。クラスとデータの意味の違いは、データが重複する最初のクラスの深さを記憶することで、それがデータを求めたいクラスの祖先か子孫かによって区別することができる。データが重複に対しては、1つをその親クラスのデータとして代表させることでこれらの問題を解決することができる。最後に代表とならなかったクラスの深さを記憶することで、それがデータを求めたいクラスの子孫であるもののみを得ることによって、重複なくクラスのデータを求めることができる。これらの手法は、一様でない様々な種類の意味をデータが混在する場合に分類を行う際の分類階層のスキーマを与え、効率的にデータを分類して利用する実現法として有効なものとなる。
すべて 2005 2004
すべて 雑誌論文 (4件)
火の国情報シンポジウム2005 (印刷中)
Proc.World Multi-Conference on Systemics, Cybernetics and Informatics (to appear)(印刷中)
Proc.World Multi-Conference on Systemics, Cybernetics and Informatics Vol.II
ページ: 289-294
Proc.IASTED Int'l Conf.on Databases and Applications
ページ: 252-257