• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2015 Fiscal Year Annual Research Report

ゲノム・オミックスデータ解析の安定化のための統計的方法論

Research Project

Project/Area Number 25280008
Research InstitutionThe Institute of Statistical Mathematics

Principal Investigator

江口 真透  統計数理研究所, 大学共同利用機関等の部局等, 教授 (10168776)

Co-Investigator(Kenkyū-buntansha) 松浦 正明  帝京大学, 公私立大学の部局等, 教授 (40173794)
松井 茂之  名古屋大学, 医学(系)研究科(研究院), 教授 (80305854)
間野 修平  統計数理研究所, 数理・推論研究系, 准教授 (20372948)
小森 理  福井大学, 工学(系)研究科(研究院), その他 (60586379)
野間 久史  統計数理研究所, 大学共同利用機関等の部局等, 助教 (70633486)
Project Period (FY) 2013-04-01 – 2018-03-31
Keywords遺伝子発現データ / 群判別問題 / ガンマ・K-平均 / ロバスト クラスタリング / メタラーニング / Itakura-Saitoダイバージェンス
Outline of Annual Research Achievements

ゲノム・オミックスデータがバイオマーカーとして持つべく共通なパターンを抽出することを目的にする計画が遂行された。特に遺伝子発現のクラスタリングのための有効な方法を開発した.これはガンマ・クラスタリングを拡張したガンマ平均法である.これはK平均法をロバスト化したもので,発現に散逸ノイズが加わったときでも適切なクラスタリングができることが確認された.異なるデータセットのメタ解析による知識の統合化の研究計画が完成した.これはマルチタスク・ラーニングの観点から従来ある方法を統合することが目標となっていた.このためItakura-Saito情報量を用いて全てのデータセットを結合した損失関数を提案した.データセット間のばらつきをコントロールする正則化項も非正則な指数モデルの間のItakura-Saitoダイバージェンスで定められている.これにより各々のデータセットに基づく予測法が互いに正則化されて過剰適合を防ぐことに成功した.このように各々のデータセットが示唆するマーカーの中で共通するマーカーがより強く支持されるような方法になっている.現在,乳がんの予後予測の公開されているデータの3つのセットから予後予測に関連する遺伝子の特定のために適用している.予備的な解析結果は良好であるので引き続き結論まで導きたい.更にこのアプローチを遺伝子発現だけでなく,ゲノムデータを含む形で発展させたい.例えば表現型に関連する幾つかのSNPと遺伝子発現を適切に選んで予測スコアーを提案したい.アカデミアシニカのS.Y.Huang博士と国立台湾大学のH. Hsiao教授,H. Hung准教授と広い観点から遺伝学的知識を援用して,発現との関連について医学・生物学の最新の成果について総合的な意見交換を行った.これにより,多層パーセプトロンの学習によってそれぞれの知識を非線形につなぐ方法のアィディアが得られた.

Current Status of Research Progress
Current Status of Research Progress

2: Research has progressed on the whole more than it was originally planned.

Reason

この課題はゲノム・オミックスデータの統計的解析から高次元小標本の下での安定的で再現性の高い統計的な結論を得ることが主要な目的である.このため,現実のデータ高次元性と小サンプルの問題対して,今まで,べきエントロピーを援用したクラスタリング,多用なロス関数の提案,特に一般化ROC曲線,一般化t統計量による予測スコアーの提案に加えて,本年度はマルチタスク・ラーニングの方法論の完成とガンマ平均クラスタリングの開発によって,実用化に大きく進展した.この提案された統合化された損失関数の最適化によって提案された方法は現在,複数の公開データを使って,各々データで下された結論の再検討を開始している.これによって新たな再現性の高い表現型予測が得られることが期待される.高次元小標本の下での安定的で再現性の高い統計的な結論を得ることは未だ困難な問題が立ちはだかっているが着実な研究計画なもとで一歩一歩,成果が得られている.以下の今後の計画とも関連するがゲノム・オミックスデータの計測テクノロジー自体も急速な発展をしているので,その計測技術によって新たに獲得されるだろうデータについても可能な統計的解析を検討する必要があると思う.特に遺伝子発現の計測は今後デジタル信号化した計測が普及されると予想されるのでそのデータの正規化,標準化についても予め検討する必要があると思われる.しかしこのことを追加したとしても研究計画の大幅な変更を伴わないで実行できることは確認している.現在,データ科学の中でスパースラーニング,ディープラーニングの著しい進展が見込まれているがこれらの最先端の方法もこの計画の中で適用することは大いに寛容性を拡大すると期待している.とくに多層パーセプトロンのアイデアを予測スコアーの構築に生かす計画も始める予定である.

Strategy for Future Research Activity

教師無し学習であるクラスタリングにおいてベキエントロピーを注目したガンマ・クラスタリングの開発を行ってきた。一方で教師あり学習の表現形予測の方法について長年の研究を行ってきた。クラスタリングは予測解析を進めるために有益な情報を提供する。例えば、予測解析のために選択されたマーカーがどのようなクラスターに属しているか調べる事によって予測の適切さが評価できる。このようにクラスタリングの結果は直接予測解析に使われる事は考えられてない。今回のプロジェクトではクラスタリングと予測を密接に連携を図った方法についての研究を進めたい。これは具体的には従来の線形スコアーの表現型予測ではなく準線形スコアーによる方法となっている.とくにクラスタリングによって示唆されたグループ内では線形スコアーを考え一方で,グループ間では非線形な結合を考えるものである.このように線型性と非線形性を分離して考察する。特に非線形性は対数和指数とよばれる変換を用いる。それぞれのクラスター内において線形スコアーで測られたマーカーの特性値に対してこの対数和指数変換を用いると低い特性値は無視して高い特性値だけを採用する特徴があることが分かる。このように従来の線形スコアーの線形結合とはかなり異なる統合スコアーになっている。マーカー選択のためのL1正則化はクラスター毎に組むことによって全クラスターのマーカーが適切に選択されることが予想される。これは線形結合されたスコアーの特性値を非変形で結合している点で多層パーセプトロンの形と符合する.これよりクラスターの解析結果を直接に予測解析につなげる方法として注目すべき方法となっていると思われる.この新規性の有用性についても今後,ディープラーニングの文脈で明らかにしてゆきたい.

Causes of Carryover

外国旅費について、予定通り出張を執り行ったが、先方からの招待となったため、旅費が若干余ってしまった。

Expenditure Plan for Carryover Budget

28年度も外国出張が予定されているため、その費用に充てたいと考えている。

  • Research Products

    (33 results)

All 2016 2015

All Journal Article (7 results) (of which Int'l Joint Research: 7 results,  Peer Reviewed: 7 results,  Open Access: 1 results,  Acknowledgement Compliant: 1 results) Presentation (19 results) (of which Int'l Joint Research: 13 results,  Invited: 7 results) Book (7 results)

  • [Journal Article] Robust Clustering Method in the Presence of Scattered Observations.2016

    • Author(s)
      A. Notsu and S. Eguchi.
    • Journal Title

      Neural Computation,

      Volume: In press Pages: In press

    • DOI

      10.1162/NECO_a_00833

    • Peer Reviewed / Int'l Joint Research
  • [Journal Article] Genome-wide DNA copy-number analysis in ACTS-CC trial of adjuvant chemotherapy for stage III colonic cancer.2016

    • Author(s)
      Ishikawa T, Uetake H, Murotani K, Kobunai T, Ishiguro M, Matsui S, Sugihara K.
    • Journal Title

      Anticancer Res.

      Volume: 36 Pages: 853-860

    • DOI

      10.1038/bjc.2012.86

    • Peer Reviewed / Int'l Joint Research
  • [Journal Article] A note on the Mantel-Haenszel estimators when the common effect assumptions are violated.2016

    • Author(s)
      Noma, H. and Nagashima, K.
    • Journal Title

      Epidemiologic Methods

      Volume: Accepted Pages: Accepted

    • DOI

      10.1515/em-2015-0004

    • Peer Reviewed / Int'l Joint Research / Acknowledgement Compliant
  • [Journal Article] Extreme sizes in Gibbs-type exchangeable random partitions2016

    • Author(s)
      Mano S.
    • Journal Title

      AISM

      Volume: Accepted Pages: Accepted

    • DOI

      10.1007/s10463-015-0530-0

    • Peer Reviewed / Int'l Joint Research
  • [Journal Article] Binary classification with pseudo exponential model and its application for multi task learning.2015

    • Author(s)
      T. Takenouchi, O. Komori and S. Eguchi.
    • Journal Title

      Entropy

      Volume: 17, 8 Pages: 5673-5694

    • DOI

      10.3390 / e17085673

    • Peer Reviewed / Open Access / Int'l Joint Research
  • [Journal Article] Generalized t-statistics for two-group classification.2015

    • Author(s)
      O. Komori, S. Eguchi and J. Copas.
    • Journal Title

      Biometrics

      Volume: 71, 2 Pages: 404-416

    • DOI

      10.1111/biom.12265

    • Peer Reviewed / Int'l Joint Research
  • [Journal Article] Risk assessment of radioisotope contamination for aquatic living resources in and around Japan.2015

    • Author(s)
      H. Okamura, S. Ikeda, T. Morita and S. Eguchi.
    • Journal Title

      Proceedings of the National Academy of Sciences

      Volume: 113(14) Pages: 3838-3843

    • DOI

      10.1073/pnas.1519792113

    • Peer Reviewed / Int'l Joint Research
  • [Presentation] A comparison of multiple testing methods for effective strategies in genome-wide association studies.2016

    • Author(s)
      大谷隆浩,野間久史,西野穣,松井孝太,松井茂之.
    • Organizer
      2016年度日本計量生物学会年会
    • Place of Presentation
      統計数理研究所,東京
    • Year and Date
      2016-03-18 – 2016-03-19
  • [Presentation] Asymptotic behaviors of the Mantel-Haenszel estimators and their robust variance estimators when the common effect assumptions are violated.2016

    • Author(s)
      Noma, H., Nagashima, K.
    • Organizer
      Eastern North American Region International Biometric Society 2016 Spring Meeting,
    • Place of Presentation
      JW Marriott Austin, Austin, Texas, US
    • Year and Date
      2016-03-06 – 2016-03-09
    • Int'l Joint Research
  • [Presentation] Estimating the structure of big data: new approach to screening and classification in genomic studies.2016

    • Author(s)
      Matsui S.
    • Organizer
      CREST International Symposium on Big Data Application
    • Place of Presentation
      Japan Science and Technology Agency, Tokyo, Japan
    • Year and Date
      2016-03-04
    • Int'l Joint Research / Invited
  • [Presentation] A classification method based on nested normal mixture models with cancer outlier profiles.2015

    • Author(s)
      Matsui K, Oura T, Matsui S.
    • Organizer
      East Asia Regional Biometric Conference
    • Place of Presentation
      Kyushu University, Fukuoka, Japan
    • Year and Date
      2015-12-20 – 2015-12-22
    • Int'l Joint Research
  • [Presentation] Re-evaluation of the multiple testing strategy for detecting disease-related genetic variants in genome-wide association studies.2015

    • Author(s)
      Otani, T., Noma, H., Nishino, J., Matsui, S.
    • Organizer
      East Asia Regional Biometric Conference 2015
    • Place of Presentation
      Kyushu University, Fukuoka, Japan
    • Year and Date
      2015-12-20 – 2015-12-22
    • Int'l Joint Research
  • [Presentation] Spontaneous learning for clustered data via gamma power divergence.2015

    • Author(s)
      Eguchi S.
    • Organizer
      The 9th Conference of the Asian Regional Section of the IASC
    • Place of Presentation
      National University of Singapore, Singapore.
    • Year and Date
      2015-12-19
    • Int'l Joint Research / Invited
  • [Presentation] Extension of AUC for classification considering heterogeneity in distributions.2015

    • Author(s)
      Komori, O. and Eguchi, S.
    • Organizer
      The 9th Conference of the Asian Regional Section of the IASC-ARS 2015
    • Place of Presentation
      National University of Singapore, Singapore.
    • Year and Date
      2015-12-19
    • Int'l Joint Research / Invited
  • [Presentation] Information geometry and spontaneous data learning.2015

    • Author(s)
      Eguchi S.
    • Organizer
      2015 Workshop on High-Dimensional Statistical Analysis
    • Place of Presentation
      Academia Sinica, Taiwan
    • Year and Date
      2015-12-11
    • Int'l Joint Research
  • [Presentation] Generalized t-statistic and AUC for binary classification.2015

    • Author(s)
      Komori, O. and Eguchi, S.
    • Organizer
      Workshop on High-Dimensional Statistical Analysis
    • Place of Presentation
      Academia Sinica, Taiwan
    • Year and Date
      2015-12-11
    • Int'l Joint Research / Invited
  • [Presentation] Hierarchical mixture modelling and empirical Bayes estimationin biomedical studies with high-dimensional data.2015

    • Author(s)
      Matsui S.
    • Organizer
      Frontiers inData-Driven Science and Technology: Recent Advances in Machine Learningand Applications.
    • Place of Presentation
      Nagoya Institute of Technology, Nagoya, Japan
    • Year and Date
      2015-11-05
    • Int'l Joint Research / Invited
  • [Presentation] Spontaneous learning for data distributions via minimum divergence.2015

    • Author(s)
      Eguchi S.
    • Organizer
      ICMS Workshop on Computational information geometry for image and signal processing
    • Place of Presentation
      Edinburgh.
    • Year and Date
      2015-09-21
    • Int'l Joint Research / Invited
  • [Presentation] ゲノムワイド関連解析データを用いた複雑疾患の階層混合モデル解析2015

    • Author(s)
      西野穣, 高地雄太, 野間久史, 重水大智, 森園隆, 角田達彦, 松井茂之.
    • Organizer
      2015年度統計関連学会連合大会
    • Place of Presentation
      岡山大学
    • Year and Date
      2015-09-09
    • Int'l Joint Research
  • [Presentation] 異質性が内在する2標本検定問題におけるロバストな統計量2015

    • Author(s)
      大前勝弘,小森理,江口真透
    • Organizer
      統計関連学会連合大会2015
    • Place of Presentation
      岡山大学 津島キャンパス
    • Year and Date
      2015-09-08
  • [Presentation] 自発的なデータ学習について2015

    • Author(s)
      江口 真透
    • Organizer
      統計関連学会連合大会2015
    • Place of Presentation
      岡山大学 津島キャンパス
    • Year and Date
      2015-09-07
  • [Presentation] 分布の異質性を考慮したt統計量とAUCの一般化2015

    • Author(s)
      小森理,江口真透
    • Organizer
      統計関連学会連合大会2015
    • Place of Presentation
      岡山大学 津島キャンパス
    • Year and Date
      2015-09-07
  • [Presentation] クラスタリングのためのロバストなK-平均法について2015

    • Author(s)
      野津昭文,江口真透
    • Organizer
      統計関連学会連合大会2015
    • Place of Presentation
      岡山大学 津島キャンパス
    • Year and Date
      2015-09-07
  • [Presentation] Efficient study designs and semiparametric inference methods for developing genomic biomarkers in cancer clinical research.2015

    • Author(s)
      Noma, H.
    • Organizer
      Pacific Rim Cancer Biostatistics Conference
    • Place of Presentation
      Washington Athletic Club, Seattle, US,
    • Year and Date
      2015-08-14
    • Int'l Joint Research
  • [Presentation] Efficient study designs for developing genomic biomarkers and semiparametric inference.2015

    • Author(s)
      Noma, H.
    • Organizer
      Joint Statistical Meeting 2015
    • Place of Presentation
      Washington State Convention Center, Seattle, US
    • Year and Date
      2015-08-10
    • Int'l Joint Research
  • [Presentation] 自発的なデータ学習の展望2015

    • Author(s)
      江口 真透
    • Organizer
      平成27年度 統計科学セミナー
    • Place of Presentation
      九州大学伊都キャンパス
    • Year and Date
      2015-07-17
    • Invited
  • [Book] Spontaneous learning for data distributions via minimum divergence. In Computational Information Geometry in Signal and Image Processing,2016

    • Author(s)
      S. Eguchi, A. Notsu and O. Komori
    • Total Pages
      To appear
    • Publisher
      Springer
  • [Book] Statistical and machine-learning methods for class prediction in high dimension. Design and Analysis of Clinical Trials for Predictive Medicine.2015

    • Author(s)
      O.Komori and S.Eguchi.
    • Total Pages
      400 (253-270)
    • Publisher
      Chapman Hall/CRC
  • [Book] Path Connectedness on a Space of Probability Density Functions. In Geometric Science of Information 20152015

    • Author(s)
      Eguchi, S.and Komori, O.
    • Total Pages
      790
    • Publisher
      Springer International Publishing.
  • [Book] 抗がん剤副作用予測システム.血液内科2015

    • Author(s)
      松浦正明,牛嶋 大
    • Total Pages
      545 (533-538)
    • Publisher
      科学評論社
  • [Book] Statistical issues in clinical development and validation of genomic signatures. In Design and Analysis of Clinical Trials for Predictive Medicine.2015

    • Author(s)
      Matsui S.
    • Total Pages
      400 (207-226)
    • Publisher
      CRC Press
  • [Book] Univariate analysis for gene screening: beyond the multiple testing. In Design and Analysis of Clinical Trials for Predictive Medicine.2015

    • Author(s)
      Noma H, Matsui S.
    • Total Pages
      400 (227-252)
    • Publisher
      CRC Press
  • [Book] Development and validation of continuous genomic signatures in randomized clinical trials. In Design and Analysis of Clinical Trials for Predictive Medicine.2015

    • Author(s)
      Matsui S.
    • Total Pages
      400 (315-331)
    • Publisher
      CRC Press

URL: 

Published: 2017-01-06  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi