研究概要 |
DNA配列はA,T,G,Cの4記号からなる配列であるが,この研究はソフトコンピューティングに基づく新たな手法を開発することを目的としている.そこで,平成17年度においては,次のような項目を実行した. [1:基本概念] 解析の対象とするDNA配列はあくまでも単独のものであるが,この研究では,その存在環境や比較対象とする配列群の存在に依存して複数の意味をもちうると考えた.そこで,この研究では基本的な方法として,単独な配列でも隠れた部分配列に分解できるという考えを提案した.そして,以下の[2]と[3]にあるような方式を与えた. [2:数値化と独立成分分析] (2-1)数値化を行う前に,同種のパターンを有する配列群とパターンを有していない配列群を用意する. (2-2)記号配列を数値化する方法として,位置依存型頻度を用いる. [3:主成分分析と独立成分分析] 基本概念において示した隠れた成分への分解の手法として,独立成分分析を用いることにした.このとき,前処理として,主成分分析を用いた.これにより,次のような知見を得た. (3-1)独立成分に分解したときに,DNA配列の保存領域のパターンを反映している独立成分とノイズと見なせる成分が現れ,分解に意味のあることが判明した. (3-2)配列のパターンには二重構造があり,独立成分への分解はそれらを検出できるものであると判明した. [4:ヒトゲノムに対する検証] 以上の知見に基づくアルゴリズム開発,ソフトウェア開発,実験により,ヒトゲノム中のプロモーターなどの保存領域を,従来の記号処理的手法に比べて優れた性能で検出できることを実証できた.
|