2008 Fiscal Year Annual Research Report
Project/Area Number |
19310128
|
Research Institution | National Institute of Advanced Industrial Science and Technology |
Principal Investigator |
HORTON Paul National Institute of Advanced Industrial Science and Technology, 生命情報工学研究センター, 研究チーム長 (00371071)
|
Co-Investigator(Kenkyū-buntansha) |
堀本 勝久 独立行政法人産業技術総合研究所, 生命情報工学研究センター, 研究チーム長 (40238803)
油谷 幸代 独立行政法人産業技術総合研究所, 生命情報工学研究センター, 研究員 (10361627)
|
Keywords | 遺伝子発現 / プロモータ解析 / 組織特異性 / 遺伝子分類 / 転写制御 / 発生の制御 / 細胞学 / 確率モデル |
Research Abstract |
1)幅広いマイクロアレイデータから遺伝子発現の周辺分布確率モデルを学習した。データセットとして、米国NCBI公開データベース(www.ncbi.nlm.nih.gov/geo/)のGDS596(ヒト158細胞腫、22,283 probes)とGDS592(マウス122細胞腫、31,373 probes)を用いた。試行錯誤の結果対数正規分布の混合モデルが適していることを示した。混合モデルの成分数は情報基準を用いて判定した。情報基準として赤池情報基準(AIC)とBayesian情報基準(BIC)を、しミューレーションを用いて評価した。その結果BICを採用することにした。 2)遺伝子の周辺分布と機能の関連も調べた。1)で確立した周辺分布確率モデルと分布成分数判定基準を用い、成分数とGene Ontologyキーワードの相関を調べた。具体的には、データセットの遺伝子の内、複数の成分数を持つと判定された遺伝子(GDS596から256遺伝子、GDS592から56遺伝子)とGene Ontologyキーワードとの有意な相関を調べた。両データセットに成分数と相関するキーワードとして得られたのは"intracellular"のひとつのみであった。1)と2)の成果は国際学会BSBT2008で発表した。 3)2)の結果でノイズの多いマイクロアレイデータの限界を示した。それを踏まえ、発現データとして、マイクロアレイを用いず、次世代シーケンサーで測定したトランスクリプト・タッグデータを使う必要性を認めた。その準備としてマウスなどのトランスクリプト・タッグデータ収集に着手した。
|