研究課題/領域番号 |
25280008
|
研究機関 | 統計数理研究所 |
研究代表者 |
江口 真透 統計数理研究所, 大学共同利用機関等の部局等, 教授 (10168776)
|
研究分担者 |
松浦 正明 帝京大学, 公私立大学の部局等, 教授 (40173794)
松井 茂之 名古屋大学, 医学(系)研究科(研究院), 教授 (80305854)
間野 修平 統計数理研究所, 数理・推論研究系, 准教授 (20372948)
小森 理 福井大学, 工学(系)研究科(研究院), その他 (60586379)
野間 久史 統計数理研究所, 大学共同利用機関等の部局等, 助教 (70633486)
|
研究期間 (年度) |
2013-04-01 – 2018-03-31
|
キーワード | 遺伝子発現データ / 群判別問題 / ガンマ・K-平均 / ロバスト クラスタリング / メタラーニング / Itakura-Saitoダイバージェンス |
研究実績の概要 |
ゲノム・オミックスデータがバイオマーカーとして持つべく共通なパターンを抽出することを目的にする計画が遂行された。特に遺伝子発現のクラスタリングのための有効な方法を開発した.これはガンマ・クラスタリングを拡張したガンマ平均法である.これはK平均法をロバスト化したもので,発現に散逸ノイズが加わったときでも適切なクラスタリングができることが確認された.異なるデータセットのメタ解析による知識の統合化の研究計画が完成した.これはマルチタスク・ラーニングの観点から従来ある方法を統合することが目標となっていた.このためItakura-Saito情報量を用いて全てのデータセットを結合した損失関数を提案した.データセット間のばらつきをコントロールする正則化項も非正則な指数モデルの間のItakura-Saitoダイバージェンスで定められている.これにより各々のデータセットに基づく予測法が互いに正則化されて過剰適合を防ぐことに成功した.このように各々のデータセットが示唆するマーカーの中で共通するマーカーがより強く支持されるような方法になっている.現在,乳がんの予後予測の公開されているデータの3つのセットから予後予測に関連する遺伝子の特定のために適用している.予備的な解析結果は良好であるので引き続き結論まで導きたい.更にこのアプローチを遺伝子発現だけでなく,ゲノムデータを含む形で発展させたい.例えば表現型に関連する幾つかのSNPと遺伝子発現を適切に選んで予測スコアーを提案したい.アカデミアシニカのS.Y.Huang博士と国立台湾大学のH. Hsiao教授,H. Hung准教授と広い観点から遺伝学的知識を援用して,発現との関連について医学・生物学の最新の成果について総合的な意見交換を行った.これにより,多層パーセプトロンの学習によってそれぞれの知識を非線形につなぐ方法のアィディアが得られた.
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
この課題はゲノム・オミックスデータの統計的解析から高次元小標本の下での安定的で再現性の高い統計的な結論を得ることが主要な目的である.このため,現実のデータ高次元性と小サンプルの問題対して,今まで,べきエントロピーを援用したクラスタリング,多用なロス関数の提案,特に一般化ROC曲線,一般化t統計量による予測スコアーの提案に加えて,本年度はマルチタスク・ラーニングの方法論の完成とガンマ平均クラスタリングの開発によって,実用化に大きく進展した.この提案された統合化された損失関数の最適化によって提案された方法は現在,複数の公開データを使って,各々データで下された結論の再検討を開始している.これによって新たな再現性の高い表現型予測が得られることが期待される.高次元小標本の下での安定的で再現性の高い統計的な結論を得ることは未だ困難な問題が立ちはだかっているが着実な研究計画なもとで一歩一歩,成果が得られている.以下の今後の計画とも関連するがゲノム・オミックスデータの計測テクノロジー自体も急速な発展をしているので,その計測技術によって新たに獲得されるだろうデータについても可能な統計的解析を検討する必要があると思う.特に遺伝子発現の計測は今後デジタル信号化した計測が普及されると予想されるのでそのデータの正規化,標準化についても予め検討する必要があると思われる.しかしこのことを追加したとしても研究計画の大幅な変更を伴わないで実行できることは確認している.現在,データ科学の中でスパースラーニング,ディープラーニングの著しい進展が見込まれているがこれらの最先端の方法もこの計画の中で適用することは大いに寛容性を拡大すると期待している.とくに多層パーセプトロンのアイデアを予測スコアーの構築に生かす計画も始める予定である.
|
今後の研究の推進方策 |
教師無し学習であるクラスタリングにおいてベキエントロピーを注目したガンマ・クラスタリングの開発を行ってきた。一方で教師あり学習の表現形予測の方法について長年の研究を行ってきた。クラスタリングは予測解析を進めるために有益な情報を提供する。例えば、予測解析のために選択されたマーカーがどのようなクラスターに属しているか調べる事によって予測の適切さが評価できる。このようにクラスタリングの結果は直接予測解析に使われる事は考えられてない。今回のプロジェクトではクラスタリングと予測を密接に連携を図った方法についての研究を進めたい。これは具体的には従来の線形スコアーの表現型予測ではなく準線形スコアーによる方法となっている.とくにクラスタリングによって示唆されたグループ内では線形スコアーを考え一方で,グループ間では非線形な結合を考えるものである.このように線型性と非線形性を分離して考察する。特に非線形性は対数和指数とよばれる変換を用いる。それぞれのクラスター内において線形スコアーで測られたマーカーの特性値に対してこの対数和指数変換を用いると低い特性値は無視して高い特性値だけを採用する特徴があることが分かる。このように従来の線形スコアーの線形結合とはかなり異なる統合スコアーになっている。マーカー選択のためのL1正則化はクラスター毎に組むことによって全クラスターのマーカーが適切に選択されることが予想される。これは線形結合されたスコアーの特性値を非変形で結合している点で多層パーセプトロンの形と符合する.これよりクラスターの解析結果を直接に予測解析につなげる方法として注目すべき方法となっていると思われる.この新規性の有用性についても今後,ディープラーニングの文脈で明らかにしてゆきたい.
|
次年度使用額が生じた理由 |
外国旅費について、予定通り出張を執り行ったが、先方からの招待となったため、旅費が若干余ってしまった。
|
次年度使用額の使用計画 |
28年度も外国出張が予定されているため、その費用に充てたいと考えている。
|