2013 Fiscal Year Research-status Report
完全線形符号に基づくDNAの符号化によるゲノムマッピングの高速化
Project/Area Number |
24650155
|
Research Institution | Osaka University |
Principal Investigator |
竹中 要一 大阪大学, 情報科学研究科, 准教授 (00324830)
|
Keywords | DNA配列 / 完全線形符号 / ガロア拡大体 / ゲノムマッピング |
Research Abstract |
研究計画の2年目である平成25年度は,1年目に構築した理論が実用上でも有効である事を実証する事を目的とし,ゲノムマッピングアルゴリズムの実装を行った. 現在,高速なゲノムマピングソフトウェアは全て圧縮データ構造の一種であるBurrows-Wheeler 変換を用いている.これを用いても理論上の計算量は等しいが,多くのDNA配列に特化した最適化手法及び,ヒューリスティクスを取り入れる事により,ゲノムサイズとキャッシュまたはメインメモリサイズが同等程度の場合に実計算時間を大幅に短縮する事を可能とする. これらの知見を短時間で有効活用するため,各種最適化手法を自ら実装するのではなく,既存のゲノムマッピングソフトウェアに対するラッパーを作成する事で実現した.具体的には,完全線形符号の符号語集合を直接アルファベットとみなすのではなく,擬似的にDNA配列として表現する.これにより完全線形符号を用いたゲノムマッピングに必ずしも適しては居ない物の,多数のヒューリスティクスを擬似的に取り込む事が可能となる.そしてこの実装が本研究における計算時間の下限となるため,提案手法の有効性を評価する手法として望ましい性質を持っているといえる. 既存ソフトウェアとしてBowtieを用いた結果は次の通りであった.大腸菌及びヒトゲノムを対象とする提案手法のマッピング計算時間がBowtieとほぼ同程度であり,かつより類似性の低いアライメントを発見する事ができた. 以上の結果を受け,現在独自実装のマッピングソフトを構築中である.
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
従来の計画では,平成25年度中に,独自実装のマッピングツールの実装を終える事となっていた.しかし,現状の実装では計算時間等の性能における明らかな優位性が伺えない.そのため,現在も高速化を図るべく,提案手法の実装を継続している. 上記の部分については,研究計画より少々遅延しているものの,平成26年度に予定していた並列化部分についての予備実験を終了している事より,全体の計画としてはおおむね順調に進展していると判断している.
|
Strategy for Future Research Activity |
本年度は,昨年度に引き続きマッピングソフトウェアの実装を継続する.マッピングソフトウェアの実装としては,シングルタスクの高速化及び,並列化を活用した高速化の2種類である. シングルタスクの高速化としては,圧縮データ構造の見直しを考えている.圧縮データ構造に基づくマッピングだけでは,従来手法を大幅に超える性能を得る事が困難であると考えている.そこで他の高速化手法の検討を試みる. 並列化による高速化については,マッピング対象となるリード配列集合を分割し,分割数分のシングルタスクマッピングソフトを起動する手法を用いる.こちらは,xargs を用いた手法で容易に実装可能である.これに加え,openMPを用いた並列化手法の実現を試みる. 本研究で提案する手法の根幹は,DNA配列を完全線形符号の要素として表現する事にある.これはDNA配列を扱う各種手法に応用が可能であると考えている.そこで,本年度は,アライメント以外の配列解析各種アルゴリズムへの提案理論の適用を試みる.具体的には,ゲノムアセンブル,メタゲノム解析を考えている.
|
Expenditure Plans for the Next FY Research Funding |
本年度の進捗として,提案手法と提案手法の間に大きな性能差がない事を掲げた.並列化や他への応用の成果はあったものの,前述の理由に伴い学会発表回数が少なくなった分,次年度使用額がでた. 途上で終わった本年度課題の成果発表を来年度で行う事に費用を費やす. また,国際会議におけるチュートリアルやワークショップを活用した積極的な情報収集を追加するとともに,来年度で行う並列化を実行する計算機機器の機能向上に利用する.
|