2006 Fiscal Year Annual Research Report
計算幾何構造と適応サンプリングに基づく大規模生物情報処理に関する研究
Project/Area Number |
18700289
|
Research Institution | Kyoto University |
Principal Investigator |
瀧川 一学 京都大学, 化学研究所, 助手 (10374597)
|
Keywords | 確率的計算幾何構造 / ノンパラメトリック法 / 適応サンプリング / 接近グラフ |
Research Abstract |
本研究では種々のデータについて各データ点間の類似性が規定する計算機何構造を適応サンプリングなど確立的操作を通して扱う方法論と生物情報処理に適用するための技法について扱った。 まず、識別問題を取り上げ、各クラスの代表点との近接性に基づいて識別を行ういわゆるプロトタイプ法のアプローチを掘り下げた。初めに、代表点の構成は近接性にもとづいてデータ点の分布を少ない代表点の分布で圧縮して表示することに相当する事実に着目した。このため、最近隣法やベクトル量子化(VQ)などの方法論の重要な再発見という位置づけともいえる。近年、実際上のパフォーマンスを伴って広まっているSVMの基底にある半空間のようなデータ点が規定する凸集合は現実のデータが作る高次元空間においてね複雑なパラメトリックモデルを構成するより機能することが実証されてきた。このようなデータ点が張る凸集合が、射影等の集合距離を併用することで代表点の代替として利用し、学習はこの凸集合の族による被覆として構成した。それぞれの凸集合は、負例を排除し正例の部分集合を包含する凸包を適応サンプリングによって構成する方法を提案した。実装は学習アルゴリズムの導出は線形計画を反復する適応サンプリングに基づき、実際の識別は二次計画となる。負例の排除条件は厳密としたが、バギングのようにサンプリングしたものが緩和条件として利用できないか、およびアルゴリズムの実行効率などは、依然検討中である。 また計算幾何構造による生物情報処理としてマイクロアレイデータを各プロファイル点のうち代謝経路上で連続する酵素関係にエッジを引き、発現プロファイルの類似性を点間距離として確率的に正規化して重みとした近接グラフを利用し、ある化合物からある化合物へと変換する際にどのような遺伝子群が顕著に発現するかをランキングする方法論も提案した。その結果は論文として準備中である。
|