2011 Fiscal Year Annual Research Report
ゲノムデータからの予測・発見・推論の統合化のための統計学と機械学習の融合
Project/Area Number |
20240028
|
Research Institution | The Institute of Statistical Mathematics |
Principal Investigator |
江口 真透 統計数理研究所, 数理・推論研究系, 教授 (10168776)
|
Co-Investigator(Kenkyū-buntansha) |
藤澤 洋徳 統計数理研究所, 数理・推論研究系, 准教授 (00301177)
間野 修平 統計数理研究所, 数理・推論研究系, 准教授 (20372948)
逸見 昌之 統計数理研究所, 数理・推論研究系, 准教授 (80465921)
小森 理 統計数理研究所, 数理・推論研究系, 助教 (60586379)
松浦 正明 (財)がん研究会, ゲノムセンター・情報解析部門, 部門長 (40173794)
|
Keywords | ゲノムデータ / 予測 / 機械学習 / パタン認識 / 高次元 |
Research Abstract |
今年度は以下のように研究発表と情報交換を行い、課題についての研究が遂行された. A.平成23年12月に台北のAcademia SinicaとNational Taiwan Universityを訪問した.特にHung Chen教授,Hung Hung助教,Su-Yun Huang博士,Yuan-chin Chen博士と機械学習と統計学の融合的発展のために大学院生の教育も含めて研究交流を行い,そこで開催された国際会議と研究会に発表・参加した. B.情報幾何の立場から教師なし学習のためのブースティング法やクラスタリング法の開発を行い,従来の方法を改良してバイオインフォマティクスに使える性能を持たせることに成功した.一般化エントロピーのクラスの中でベキエントロピーがクラスター数を適切に見出すことが分かってきているので,これについて平成24年3月にあった奈良の国際会議で発表した. C.平成24年1月に長年に渡る共同研究を遂行しているUniversity of WarwickのJohn Copas教授の所を訪問した.今年度の主要な目的である「予測モデルの発見と再現性の強化」のために探索と検証をつなぐための研究を行った.RISKUセンターのセミナーでの招待講演を行った. また具体的な研究テーマは次のように進行した. 1.国立がんセンターの田村グループとの共同研究:遺伝子発現による乳がん治療の効果予測ついて研究について最終的なまとめができた. 2.三菱化学科学技術研究センター・バイオ技術研究所との共同研究では脳梗塞を表現形とするパタン認識において変数選択の際に起こる過剰学習を改良する方法を昨年度開発したが,特に病型予測の問題について実用化が進行した. 3.教師なし学習のための機械学習の方法を目指す.特にクラスタリングのための新手法の開発とブースティング方法による密度関数や回帰関数の新手法を提案し,ゲノム・オミクスデータに適用する.クラスリングではクラスター数を自動的に判定できる方法について開発した.現在は変数選択のできるバージョンについて引き続き開発している.
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
機械学習の手法を高度に援用してゲノム・オミクスデータの情報から表現形予測の開発プロジェクトの中で,特に再現性の問題について考えた.再現性を悪化していた原因として臨床的な背景の異質性があることが分かった.これについてサブタイプの特定をすることによって異質性の分類が教師なし学習の内容で可能になった.
|
Strategy for Future Research Activity |
今後,機械学習の手法を援用したゲノム・オミクスデータに基づく表現形予測の開発プロジェクトを上記の再現性の問題点の解明から予測性能の再現性を高める方法論の開発に重点を移すことする.
|
Research Products
(14 results)