2013 年度実績報告書

巨大シーケンス内の類似繰り返し構造の分析

研究課題

研究課題/領域番号	25280079
研究種目	基盤研究(B)
研究機関	北海道大学
研究代表者	中村篤祥北海道大学, 情報科学研究科, 准教授 (50344487)
研究分担者	工藤峰一北海道大学, 情報科学研究科, 教授 (60205101) 瀧川一学北海道大学, 創成研究機構研究部, 特認助教 (10374597)
研究期間 (年度)	2013-04-01 – 2016-03-31
キーワード	知識発見とデータマイニング
研究概要	巨大なシーケンスからすべての散在反復配列の近似パターンを高速に抽出する方式の開発を目指して研究を進めている。今年度は、ギャップ数制約付き頻出近似文字列パターン抽出法の有効性を人工データおよび実データを用いて検証し、ギャップ数が２以下であるという制約の下では、DELL社のPrecision T7500(CPU: Intel(R) Xeon(R) E5520 [2.27GHz], memory: 48GB)を用いて、約3500万の長さのDNA配列を約４６時間で処理可能であることがわかった。DNA配列における散在反復配列の抽出実験としてヒトゲノムの第２１染色体に適用し、長さ100以上、ギャップ数２以下、３０回以上出現という条件にマッチするすべての散在反復配列の近似パターンを求め、クラスタリングにより似たものを１００個のクラスタにまとめ、それらの中心配列をパターンとして抽出し、それに類似する配列部分をすべて抽出し、RepeatMasker(Repbase Updateというデータベースに登録されている繰り返しパターンを種にNCBI/RMBLASTを用いて類似部分列を抽出）で抽出された散在反復配列部分と比較を行った。その結果、提案法では、データベースに登録されている長さが３００程度までの散在反復配列の多くを、データベースを用いずに抽出できることを確認した。特に、Aluファミリーと呼ばれているものは、データベースを用いてRepeatMaskerが抽出したものの約半分を自動的に抽出することに成功した。これらの成果をまとめて、現在ジャーナルに投稿中である。
現在までの達成度 (区分)	現在までの達成度 (区分) 2: おおむね順調に進展している理由散在反復文字列パターン抽出法の開発、およびDNA配列における散在反復配列の抽出の２項目に関しては予定通り進行しており、楽曲の繰り返し構造分析法の開発に関しては現在は検討のみに留まっており開発まで進んではいないが、翌年度に挽回可能な程度であると考えられるため。
今後の研究の推進方策	基本的には計画は大きく変える必要はないと考える。散在反復文字列のパターン抽出法の開発に関しは、高速化・省メモリ化を更に進めていく。DNA配列における散在反復配列の抽出では、ヒトゲノムのすべての染色体配列を一度に処理できるプログラムの開発を目指し、実装法の改良を進めていく。楽曲の繰り返し構造分析法の開発に関しては転調・移調や多重シーケンスに対応した方式の開発を目指す。
次年度の研究費の使用計画	投稿していた学会論文が査読で不採択となったため、その分の出張費が不要となった。論文の結果を改良し、他の学会に再投稿する。採択されればその学会の発表のために旅費として使用する。

研究成果
(5件)

すべて 2014 2013

すべて雑誌論文 (3件) 学会発表 (2件) (うち招待講演 1件)

[雑誌論文] UCB型協調フィルタリングに関する考察2014
- 著者名/発表者名
  中村篤祥
- 雑誌名
  
  人工知能基本問題研究会
  
  巻: 93 ページ: 45-48
[雑誌論文] 二端子直並列グラフにおける影響最大化頂点集合発見アルゴリズム2014
- 著者名/発表者名
  田畑公次, 中村篤祥, 工藤峰一
- 雑誌名
  
  人工知能基本問題研究会
  
  巻: 92 ページ: 35-40
[雑誌論文] 順列バンディット問題における新しいUCB型アルゴリズム2013
- 著者名/発表者名
  渡辺僚, 中村篤祥, 工藤峰一
- 雑誌名
  
  電子情報通信学会技術研究報告
  
  巻: COMP113(198) ページ: 9-16
[学会発表] A New UCB-Like Algorithm for Permutation Bandit Problem2013
- 著者名/発表者名
  Ryo Watanabe, Atsuyoshi Nakamura, Mineichi Kudo
- 学会等名
  NIPS 2013 workshop on Bayesian optimization
- 発表場所
  Harveys Lake Tahoe(USA)
- 年月日
  20131210-20131210
[学会発表] インターネットにおけるオンライン学習2013
- 著者名/発表者名
  中村篤祥
- 学会等名
  第１２回情報科学技術フォーラム
- 発表場所
  鳥取大学(鳥取市)
- 年月日
  20130904-20130904
- 招待講演

2013 年度 実績報告書

巨大シーケンス内の類似繰り返し構造の分析

研究代表者

中村 篤祥 北海道大学, 情報科学研究科, 准教授 (50344487)

現在までの達成度 (区分)

理由

研究成果

[雑誌論文] UCB型協調フィルタリングに関する考察2014

著者名/発表者名

雑誌名

[雑誌論文] 二端子直並列グラフにおける影響最大化頂点集合発見アルゴリズム2014

著者名/発表者名

雑誌名

[雑誌論文] 順列バンディット問題における新しいUCB型アルゴリズム2013

著者名/発表者名

雑誌名

[学会発表] A New UCB-Like Algorithm for Permutation Bandit Problem2013

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] インターネットにおけるオンライン学習2013

著者名/発表者名

学会等名

発表場所

年月日

2013 年度実績報告書

中村篤祥北海道大学, 情報科学研究科, 准教授 (50344487)