2015 Fiscal Year Annual Research Report
完全線形符号に基づくDNAの符号化によるゲノムマッピングの高速化
Project/Area Number |
24650155
|
Research Institution | Osaka University |
Principal Investigator |
竹中 要一 大阪大学, 情報科学研究科, 准教授 (00324830)
|
Project Period (FY) |
2012-04-01 – 2016-03-31
|
Keywords | DNA配列 / 完全線形符号 / ガロア拡大体 / ゲノムマッピング |
Outline of Annual Research Achievements |
本研究は,DNA配列を4種類の塩基をアルファベットとする4元完全線形符号列として表現する事と有効性の追求を課題としている.4種類の塩基をガロア拡大体GF(4)上の元として表す.そして塩基配列を塩基そのものの文字列として表現する代わりに,完全線形符号の情報ビットの文字列として表現する.情報ビットで表現する事により5塩基あたり10bit必要だったデータ量を6bitへと削減する事ができる.線形符号の性質である1文字のエラー訂正機能を利用する事により符号語に一対一対応する塩基配列と1塩基置換の関係にある3N個(Nは完全線形符号語長)を同一の符号として表現可能となる.平成26年度までにこのアイデアを検証し,高速なゲノムマピングソフトウェアは全て圧縮データ構造の一種であるBurrows-Wheeler 変換を用いたマッピングソフトウェアの独自実装を行ってきた.本年度はこのアイデアをメタゲノム解析への応用法の研究を行った.メタゲノムとは,複数の微生物が含まれる環境由来の資料から,培養を経る事なくゲノムDNAを抽出し,そのDNA断片をDNAシーケンサーで読み取りを行ったデータ群である.このデータ群のリードの由来微生物を機械学習により推定する事により,環境に生息する微生物の状況を計測する事が可能になる.本研究では,このメタゲノム由来リード配列の生物種分類へ4元完全せ系符号を応用する研究を行った.分類を可能とする機械学習手法には,長さkの部分塩基配列に基づくNaive Bayes 法を採用し,その成果を学会にて発表した.また近年着目を浴びている自然言語処理分野の文字列処理法であるWord2Vec, GloVe(Global Vectors for Word Representation)によってk-merの各部分配列を処理し,写像後のベクトル空間に基づくNaive Bayes法の提案を行った.
|
Research Products
(1 results)