2012 Fiscal Year Research-status Report
遺伝子発現データに基づく予後予測モデル構築の統計理論の開発と実データによる検証
Project/Area Number |
24650149
|
Research Institution | Niigata University |
Principal Investigator |
赤澤 宏平 新潟大学, 医歯学総合病院, 教授 (10175771)
|
Project Period (FY) |
2012-04-01 – 2014-03-31
|
Keywords | バイオインフォマティックス / マイクロアレイデータ / 生存時間解析 / 比例ハザードモデル / モンテカルロシミュレーション / 検出力 / Elastic net罰則化 / 疾患感受性遺伝子 |
Research Abstract |
[目的] マイクロアレイ実験の急速な発展に伴い、治療効果の予測に役立つ治療感受性遺伝子の候補遺伝子は数万個から数十万個という膨大な数となりつつある。一方、収集できる症例数は数十例から数百例と極めて限られた数である。そうした状況下で、マイクロアレイデータの発現量と患者の生存時間との関係を評価する回帰分析を行うと、オーバーフィッティング等による推定精度の低下が高い確率で発生する。この問題に対して、特別な処理を施したCoxの比例ハザードモデルが提唱されている(Tibshirani, 2011)。今年度は、関連文献の調査とサンプルデータの予備的な解析により、これらの既存の手法の性能評価をシミュレーション技法を用いて行った。 [方法] 実際のマイクロアレイデータが収集される条件を考慮に入れたモンテシミュレーションを行った。条件は次のとおりである;比例ハザードモデルに従う生存時間乱数をいくつかの候補遺伝子を共変量とする指数モデルにより発生させ、トレーニングデータセットとする。Elastic net罰則化比例ハザードモデルを実行し回帰係数とその標準誤差を推定する。上述と同じ条件下でバリデーションデータセットを生成する。トレーニングデータセットの予後指数(比例ハザードモデルの対数ハザードの大きさ)の分布の中央値を求め、バリデーションデータセットをその予後指数の高値群と低値群の2群に分ける。ログランク検定により2群の生存率曲線の有意差検定を行い、データセット生成回数2,000回のうち何回有意差が得られたかを求め検出力を計算した。 [結果] 検出力は症例数の増加とともに高くなり、候補遺伝子の増加とともに減少した。トレーニングデータセットとバリデーションデータセットとの間で高値群と低値群とで有意差検定の結果が一致した割合は、Elastic net法が他の方法よりも高い値を示した。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
研究実施計画書では平成24年度中に次の2点を行う予定であった; (1) マイクロアレイによる遺伝子発現プロファイル解析の問題点の発掘、(2) 実データの解析による問題点の検出と統計学的知見の整理。 (1)の問題点の発掘に関しては、計画書どおり文献調査に基づく問題点の発掘を行った。がん患者を対象とした遺伝子発現プロファイル解析の論文を学術専門誌から20編程度選択し抄読した。(2)の実データの解析に基づく問題点の検出と統計学的知見の整理に関しては、新潟大学産婦人科の研究グループとの共同研究により卵巣がん患者のマイクロアレイデータの解析を行い、回帰分析の問題点を検出した。また、統計学的知見の整理に関しては、Tibshiraniのテキストを参考に理論的な背景を調査した。これらの知見に基づき、罰則化項を考慮に入れた比例ハザードモデル回帰分析の性能評価を検討しシミュレーションの一部を行った。
|
Strategy for Future Research Activity |
研究実施計画書に基づき、平成24年度に検出された問題点解決のための理論的アプローチとシミュレーションによる検証を行う。具体的には以下の手順で研究を推進する。 (1)予後に重大な影響を与える遺伝子の選択方法の検討:トレーニング群の遺伝子発現プロファイルを用いて、数万個の候補遺伝子から予後に重大な影響を与える遺伝子を決定するアルゴリズムを検討する。遺伝子選択のための有意差検定の手法として、Logrank検定、Coxの比例ハザードモデル等の多変量回帰モデル、さまざまな判別分析(打ち切り例がない場合)を調査の対象とする。 (2)小グループで選択された遺伝子を統合してトレーニング群全体での予後規定遺伝子を決定する手法の検討:これまでの解析経験から、各小グループで選択された予後に重大な影響を与える遺伝子は各グループで異なると予想される。こられの遺伝子をある基準で組み合わせ、生存・再発予後を最もよく予測できる精密な多変量回帰モデルを考案する。 (3)予後予測スコアの算出方法:トレーニング群で統合された数十個の遺伝子と臨床所見(手術時または診断時年齢、性別、臨床進行期、生活習慣など)から、折れ線Cox回帰法(Akazawa K, Nakamura T and Palesch Y, 1997, Stat Med)などを用いて多変量回帰モデルを構築する。その際、遺伝子発現プロファイルの連続データを、必要に応じて順序データに変換する。
|
Expenditure Plans for the Next FY Research Funding |
モンテカルロシミュレーションの実行に際して、処理速度を増強したパソコンの購入を予定している。シミュレーションの高速化を図るために、R言語以外にFortranの利用も検討する。さらには、それぞれの処理の妥当性を検証するために統計解析ソフトウエアSASのレンタルを行う。 これらの研究成果を得るために、データ整理とプログラミングの要員を用意する。また、研究成果の発表のため、海外・国内の学会参加旅費も当科研費補助金から支出予定である。
|
Research Products
(2 results)