2014 Fiscal Year Annual Research Report
ゲノム・オミックスデータ解析の安定化のための統計的方法論
Project/Area Number |
25280008
|
Research Institution | The Institute of Statistical Mathematics |
Principal Investigator |
江口 真透 統計数理研究所, 大学共同利用機関等の部局等, 教授 (10168776)
|
Co-Investigator(Kenkyū-buntansha) |
松浦 正明 帝京大学, 公私立大学の部局等, 教授 (40173794)
松井 茂之 名古屋大学, 医学(系)研究科(研究院), 教授 (80305854)
間野 修平 統計数理研究所, 数理・推論研究系, 准教授 (20372948)
小森 理 統計数理研究所, 大学共同利用機関等の部局等, その他 (60586379)
野間 久史 統計数理研究所, 大学共同利用機関等の部局等, 助教 (70633486)
|
Project Period (FY) |
2013-04-01 – 2018-03-31
|
Keywords | 遺伝子発現データ / 特徴ベクトル / 2群判別問題 / 線形判別 / ブースティング法 / メタラーニング / Itakura-Saitoダイバージェンス / 符号和統計量 |
Outline of Annual Research Achievements |
遺伝子発現データを特徴ベクトルとする2群判別問題に関する理論的・実際的な研究を行った.特に多重マーカーの線形予測子を作るために一般化t-統計量のクラスを考え,最適な性能の構造を明らかにして,最適線形予測子を推定するアルゴリズムを提案した.従来のフィッシャーの線形判別法を優越する場合について集中的な考察を行った.また,変数選択のためのL1正則化についても実装した.この結果はBiometrics誌に掲載予定である.実解析では前立腺がんの予測のための判別関数を実データに適用して改善の成果を得た.重要なバイオマーカーであるPSAを含む多重なマーカーをAUC最大化のブースティング法を開発した.医学的に過剰治療を校了した予測スコアーが提案された. ゲノム・オミックスデータの統計的結論に多重な解が生じる問題と低い汎化能力の問題が実用化の大きな妨げになっている。この多重解と劣汎化能力の問題をU統計量の考えに基づき,安定化した符号和統計量を提案して再現性の高い統計量の開発に努めた.その漸近的な評価のもとに信頼区間の構成と統計的な考察が加えられた.次にメタラーニングによる方法を研究した。機械学習の内容で“マルチタスク”のデータ学習として提案されている幾つか有力な方法について本プロジェクトの問題に適用可能性について検討した.その結果,Itakura-Saitoダイバージェンスが極めて有力な性質を示すことが分かり,この問題に適用することを試みた.その論文化が間もなく完成する.
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
ゲノム・オミックスデータの統計的解析から高次元小標本の下での安定的な統計方法を開発することが主目的である.このため,現実のデータ次元数が標本数をはるかに超える場合は,統計的結論の多重な解が生じる問題と低い汎化能力の問題に着目してノンパラメトリックU統計量の提案と異なる施設のデータのメタラーニングによるアプローチが本年度,大きく進展した.この提案されたU統計量はt-統計量の符号に着目したものでサンプルの中に潜む異質性に対して効率よく検出する性質が明らかにされた.特にガンの疾病の被験者グループには幾つかおサブタイプが報告されている,また未だ特定されていないサブタイプも考えうるのでこのような潜在的な分布の異質性を検出する性質は有望である. またブースティングの内容で異なるデータセットを下に予測法を構築する方法を考察した.これは統計偽モデルにおいても正確な統計モデルを推定できるItakura-Saitoダイバージェンスに着目して新たなブースティング法を提案した.この成果をもとに実データに対して得られた多重な判別式の性能をデータベースの中からマッチングした公開データで検証する統計的方法を機械学習の方法によって検証するための準備が整った。ゲノム・オミックスデータによる医学分野で新たな知見を獲得するために共同研究者との連携を効率よくはかり次年度以降の計画を練りたい。
|
Strategy for Future Research Activity |
上記のようなこれまでの研究成果:(1) 変数選択を有効に行うLASSOクラスタリング,(2) 遺伝子スクリーニングのための符号和統計量による方法, (3)異なるデータを統合するブースティング法を基礎にして以下のように研究を推進させていきたい. タンパク発現に関してはプロテオームのデータベースがProteome Worldや国立がんセンターのGeMDBJ Proteomicsに公開データがあるので,これを使って有効な共通マーカーを選定して成果(3)につなげたい。このように開発された統計方法は大幅な変更なく拡大化が可能である。これにより,同一の表現型を持つ遺伝子発現のパターン認識の結果とマッチングさせることでより知識を集約させ,確度の高い結論へ導きたい。1つの表現形に対して相同な被験者から取られたゲノム・オミックスデータがバイオマーカーとして持つべく共通なパターンを抽出したい。国立台湾大学のH. Hsiao教授とそのグループ及びウォーリック大学の統計学科のJ. Copas教授とこの総合的な検討のディスカションを行う。 最近になって活発な展開が成されている次世代シーケンサーからの研究との関連を模索する。シーケンサー・データは未だ整備される段階ではないが,今後急速にデータが蓄積されるだろう。ゲノムSNPのデータを詳細に補完されることが期待される。このプロジェクトは間野が中心になり,研究班6によって遺伝学的知識を援用して,発現との関連について医学・生物学の最新の結果を組み込んで研究を推進したい。統計科学専攻出身で現在,次世代シーケンサーを研究する会社にいるプリチャードの最先端の実際的な知識もこの研究班の中で反映したい。
|
Causes of Carryover |
国際会議に出席予定であったが,他の会議と重なり出席できなかったため,次年度に繰り越した.
|
Expenditure Plan for Carryover Budget |
27年度も英国・フランスでの会議ほか,何件かの国際会議(成果発表のため)が予定されており,その旅費に充当したい.
|
Research Products
(29 results)