データの複雑性の新たな定義を提案し、これの情報科学、特に帰納推論における意味を明確化し、応用範囲の広い「データからの知識(モデル)抽出」の手法を確立した。モデルを前提としたときのデータの経験的KL情報量ちおモデルそのもののエントロピーの輪として定義し、これを最小とするモデルを最適なモデルとして定義した。 モデルの複雑性に関しては、これまで組織的に検討されてこなかった。本研究では、これを構成的複雑性と推論的複雑性に分けて詳細に展開した。構成の複雑性はモデルの空間の中での類別構造がある場合の複雑性を与える。有限精度のモデルを考える時は、どのような形で構成の複雑性を定義するかを検討した。一つの方法は量子化の輻としてε-エントロピーで考えることである。推論的複雑性は、パラメータ推定におけるRIshierの情報行列に関係する。この点を各種の情報基準との関連を明確にして検討した。 本法の応用として進化速度が速いHIVやHTLVなどのウィルスの進化に適用した。ホストのHLAの配列変化も検討することによりウィルスと免疫系の共進化の構造も検討できる。ウィルス進化には、探索期ともいえる時期、すなわち広範囲に分岐する時期と正選択進化期といえず時期すなわち適合的な配列形式を得て正の選択を受けて一気に進化する時期の2つの時期がある。このような点をとらえ従来の中立進化的マルコフモデルだけではなく正選択進化のDNA配列間の進化関係や予測などをおこなえるようにこれまでのマルコフモデルを加速マルコフモデルなどに部分修正を行なった。
|