研究課題
今年度の研究は、主に配列データの視覚化を中心に行った。これは昨年度の自己組織化マップの国際会議において、遺伝研の研究グループによる、生物間のゲノムの比較やメタゲノム解析に、固定長シーケンスの発生頻度ベクトルを用いた発表があり、一定の成果を収めており、本研究のプローブベースの方法を用いることにより、より詳細な解析が可能になると考えたためである。解析手法としては、昨年度開発したシミュレーティングアニーにリングを用いた自己組織化マップを用いて引き続き、DNAシーケンスデータのマッピングの実験を行った。学習アルゴリズムに関しては、昨年度と同じアルゴリズムを用い学習を行い、学習後のマッピングのアルゴリズムを変更した。具体的には、マッピングの際のミスマッチを許容し、最適なマッピングを探索することで、できるだけ長い部分配列が連続的にマッピングされるように改良を行った。結果としては、連続的にシーケンスをマッピングすることが可能になり、遺伝子グループや生物種の配列が、昨年度までのマッピング手法と比較してよりまとまってクラスタリングされるようになった。ただ、現状では生物学的に正しくマッピングされているかの検証が行われておらず、更なる解析が必要であると考えられる。また、今年度はDNAシーケンスのみでなく、自己組織化マップを用いたアミノ酸配列の解析も行った。アミノ酸配列においても、DNAシーケンスの場合と同様に連続的にシーケンスがマップされることを目標としているが、アミノ酸の種類(20種)はDNAの種類(4種)に比較して多いため、従来のアルゴリズムを用いるとメモリーを大量に消費し、計算時間が長くなってしまう。そこで、アルゴリズムの大幅な見直しを行い、計算量が多いシミュレーティッドアニーリングを行わなくても、連続的にシーケンスをマッピング可能なアルゴリズムを開発した。この結果についてはGIW2006のポスターセッションにて発表を行った。今後、さらに改良を行い、このアルゴリズムをDNAシーケンス解析へフィードバックを行う予定である。また、来年度はWorkshop on Self Organizing Mapが開催される年であり、投稿をする予定である。また、本研究の副産物として、パレート型学習を行う自己組織化マップのアルゴリズムを開発した。本アルゴリズムは、一般的なマルチモーダルデータに適用可能であり、このアルゴリズムのバイオメトリクスデータへの適用に関する研究も行い、国際会議で発表を行った。さらに、今後、大規模なシーケンスデータの解析を行う際に、計算速度が問題になる。この問題に対してグラフィックスアクセレータを用いたGPUコンピューティングの適用を検討している。
すべて 2006
すべて 雑誌論文 (2件)
Proceedings of The Seventeenth International Conference on Genome Informatics 2006 poster session
Proceedings of the 5th WSEAS Int. Conf. on COMPUTATIONAL INTELLIGENCE, MAN-MACHINE SYSTEMS AND CYBERNETICS
ページ: 105-110