研究概要 |
近年,各種生物のゲノムを実験的に解析することが可能となり,各国におけるゲノム解析プロジェクトの推進によって,ゲノムに関する情報が著しく増加している。これらのデータをデータベース化が行われつつあるが,ゲノム情報は,従来のデータベースで扱われてきた事務データやエンジニアリングデータとは異なる性質を少なからずもっている。また,ゲノム情報は解析途中の実験データもあり,データ管理を目的とした従来のデータベース技術だけで対処することは困難である。本研究では,ゲノム情報を解析する際のゲノム情報処理に用いるデータベースの構成およびデータベースの持つべき機能として,データの解析を支援するデータベースについて考察した。 データを解析する際にデータの分類を行うが,それには(1)統合による方法,(2)分割による方法がある。(1)はデータのもつ性質から細かくデータを分け,できた集合を統合することにより,より大きな集合を作るものである。(2)はデータをその性質で分け,その集合をさらに分けていくものである。このようにしてできる集合の階層をそれ自体をデータとみなし,データベースに保存できるような機能の実現法を開発した。 解析過程で集合を作る操作は,データベース質問で集合を記述できる内包的な方法,その集合にどのデータが属しているかをプログラム等で指示する外延的な方法がある。できた集合階層の記憶法として,(1)データがどの集合に含まれるかを記憶する索引による方法,(2)子集合で集合の要素を代表させる間接法,(3)集合の性質で記憶する述語法を提案した。それぞれの組合せを検索効率,記憶効率から検討している。また,組合せによっては正しくデータを記憶できない場合があり,記憶方法が健全であることの条件を示している。
|