2009 Fiscal Year Annual Research Report
ゲノムデータからの予測・発見・推論の統合化のための統計学と機械学習の融合
Project/Area Number |
20240028
|
Research Institution | The Institute of Statistical Mathematics |
Principal Investigator |
江口 真透 The Institute of Statistical Mathematics, 数理・推論研究系, 教授 (10168776)
|
Co-Investigator(Kenkyū-buntansha) |
栗木 哲 統計数理研究所, 数理・推論研究系, 教授 (90195545)
藤澤 洋徳 統計数理研究所, 数理・推論研究系, 准教授 (00301177)
逸見 昌之 統計数理研究所, 数理・推論研究系, 助教 (80465921)
松浦 正明 (財)癌研究会, ゲノムセンター情報解析部門, 部門長 (40173794)
|
Keywords | ROC曲線 / マイクロアレイ / ブースティング / 効果予測 / 予測スコア / AUC |
Research Abstract |
ゲノムデータからの予測・発見・推論の統合化のための統計学と機械学習の融合を推進するために特に次の点について焦点を当てた。 [1]ゲノムデータに基づく表現系の予測スコアーを構成するために更に考察を加え、実用化に向けて幾つかの検討をした。特にROC(Receiver Operational Characteristic)曲線の下側面積の最大化について改良を加えた。これは医療の現場では擬陽性確率を一定の低い値にして正陽性確率をできるだけ高くする予測が広く受け入れられていることを勘案して,特に擬陽性確率が低い値より小さな領域に対応するROC曲線の下側面積の最大化について新たな機械学習の方法論を提案したものである。これは昨年、江口、小森によって開発されたAUC-Boostの改良版としてpAUC-Boostとして提案されている。また、マイクロアレイによる遺伝子発現による予測問題に対して古典的な2標本検定による変数選択の問題に対して考察した。この問題に対して遺伝子選択から予測まで、一貫してt検定を使うことを検討している。そのためにt検定量をブースティングの観点から見直し、新たにt-Boostを発表した。 [2]これらの統計的な方法論の開発を通して、一昨年より開始されている国立がんセンターの田村グループと乳がん治療の効果予測のための共同研究が推進された。特に、暫定的に決まっている複数の予測モデルに対して上で開発した方法も加えて検討を加えた。これらの中から最も実用性の高いモデルを近々に得られる検証用のデータによって決定するプロジェクトが順調に進められている。 [3]松浦研チームは予測問題について異なる観点から研究を進めている。これは予測の性能を図るための検証エラーレイトの信頼性について徹底的な検討・考察をしたもので、その結果、多くの場合、表現系の中に複合的なサブクラスが内在することが示唆され、このクラス内の異型性が予測の信頼度を低下させていることを結論付けた。この研究は上記の[1]、[2]とともに密接に関連する問題であるので来年度はこの知見をさらなる考察から強めたい。
|
Research Products
(20 results)
-
-
-
-
-
-
[Journal Article] SNEP : Simultaneous detection of nucleotide and expression polymorphisms using Affymetrix GeneChip2009
Author(s)
Fujisawa, H., Horiuchi, Y., Harushima, Y., Takada, T., Eguchi, S., Mochizuki, T., Sakaguchi, T., Shiroishi, T., Kurata, N.
-
Journal Title
BMC Bioinformatics 10:131.
Peer Reviewed
-
-
-
-
-
-
-
-
-
-
-
-
-
-