研究課題/領域番号 |
25280079
|
研究種目 |
基盤研究(B)
|
研究機関 | 北海道大学 |
研究代表者 |
中村 篤祥 北海道大学, 情報科学研究科, 准教授 (50344487)
|
研究分担者 |
工藤 峰一 北海道大学, 情報科学研究科, 教授 (60205101)
瀧川 一学 北海道大学, 創成研究機構研究部, 特認助教 (10374597)
|
研究期間 (年度) |
2013-04-01 – 2016-03-31
|
キーワード | 知識発見とデータマイニング |
研究概要 |
巨大なシーケンスからすべての散在反復配列の近似パターンを高速に抽出する方式の開発を目指して研究を進めている。今年度は、ギャップ数制約付き頻出近似文字列パターン抽出法の有効性を人工データおよび実データを用いて検証し、ギャップ数が2以下であるという制約の下では、DELL社のPrecision T7500(CPU: Intel(R) Xeon(R) E5520 [2.27GHz], memory: 48GB)を用いて、約3500万の長さのDNA配列を約46時間で処理可能であることがわかった。DNA配列における散在反復配列の抽出実験としてヒトゲノムの第21染色体に適用し、長さ100以上、ギャップ数2以下、30回以上出現という条件にマッチするすべての散在反復配列の近似パターンを求め、クラスタリングにより似たものを100個のクラスタにまとめ、それらの中心配列をパターンとして抽出し、それに類似する配列部分をすべて抽出し、RepeatMasker(Repbase Updateというデータベースに登録されている繰り返しパターンを種にNCBI/RMBLASTを用いて類似部分列を抽出)で抽出された散在反復配列部分と比較を行った。その結果、提案法では、データベースに登録されている長さが300程度までの散在反復配列の多くを、データベースを用いずに抽出できることを確認した。特に、Aluファミリーと呼ばれているものは、データベースを用いてRepeatMaskerが抽出したものの約半分を自動的に抽出することに成功した。これらの成果をまとめて、現在ジャーナルに投稿中である。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
散在反復文字列パターン抽出法の開発、およびDNA配列における散在反復配列の抽出の2項目に関しては予定通り進行しており、楽曲の繰り返し構造分析法の開発に関しては現在は検討のみに留まっており開発まで進んではいないが、翌年度に挽回可能な程度であると考えられるため。
|
今後の研究の推進方策 |
基本的には計画は大きく変える必要はないと考える。散在反復文字列のパターン抽出法の開発に関しは、高速化・省メモリ化を更に進めていく。DNA配列における散在反復配列の抽出では、ヒトゲノムのすべての染色体配列を一度に処理できるプログラムの開発を目指し、実装法の改良を進めていく。楽曲の繰り返し構造分析法の開発に関しては転調・移調や多重シーケンスに対応した方式の開発を目指す。
|
次年度の研究費の使用計画 |
投稿していた学会論文が査読で不採択となったため、その分の出張費が不要となった。 論文の結果を改良し、他の学会に再投稿する。採択されればその学会の発表のために旅費として使用する。
|