研究概要 |
近年の計測機器のハイスループット化、インターネット上の情報流通、各種記録システムの電子化などを受けて、明確な単一用途を想定しない大規模なデータが情報過剰気味に様々な形で収集されるようになり、規模面からもこれらのデータの計算機処理は急務である。しかし、こうした近年処理対象として期待されているデータ群は不均質かつ多義的な性質を持ち、実験計画を経てデータが計画的に収集されるという従来の統計学の前提から逸脱するため、従来型の統計手法で対処できないような効率・妥当性・規模耐性などに関する重大な問題に現在直面している。本計面ではこの問題について(1)データ点群の部分集合が成す凸包構造の族、(2)データ点そのものの部分的類似構造への分解、をもとに知識発見法を構成することを目指す。全体類似性ではなく局所類似性の多面的統合・合意形成によって不均質で単一的特徴がなく従来型の綺麗な分布を持たないデータ点群の処理を多面的にとらえるという提案に即して、まず本年度は(1)の観点から、与えられた点群を正例の部分集合を含み負例を含まない凸包の族で被覆する枠組によるノンパラメトリックなパターン分類法・探索的データ解析法およびその構成のためのいくつかのアルゴリズムを示し一定の効果を確認した。(2)については生物学で解析が待たれているDNA, タンパク質, 脂質とならぶ重要高分子である糖鎖が木構造であることを鑑みて、現在利用できる糖鎖構造データの部分的類似構造として、頻出部分木パターンを分析し、定義から出力が肥大しがちなこのマイニング問題に対して、出力のパラメトリック要約法を提案し、実際の糖鎖データの分析を行った。その結果、要約された頻出部分構造パターンは既知の様々な機能モチーフと多く合致が見られ、幅広いレベルの生物学的情報を内包する糖鎖構造データの部分的類似構造分析の多面的有効性が示唆されたと言える。
|