研究課題
基盤研究(B)
遺伝子発現解析で起こる超高次元・小標本の状況における予測性能の安定化のための統計的方法論の開発について,集中的な研究を行った.その開発のため,計算プログラミングの研究補助員に予算を重点配分し,クラスタリングによるマーカー選択の方法の完成を第一に目指した。これは,従来,情報のあるマーカー選択は,単独マーカーの性能(2標本検定のP 値)のランキングやホールドチェンジによるフィルタリングによって決めていたが,このやり方がデータごとに変動し不安定な挙動を示すことから,その解決策として考えたものである。すなわち,このマーカー選択によって予測解析を行うとよい性能が得られないのは,訓練データとテストデータのランキングやフィルタリングが大きく食い違うためであると考え,従来法と全く発想の違う観点からの選択法を提案したものであり,クラスタリングされたマーカーのクラスター構造が変動しないように,マーカーの選択を逐次減少法によって行うものである。具体的には,全てのマーカーにk-平均法を行い,k 個のクラスターに分類した。ここでクラスター数k はサブタイプの情報から決めた。例えば乳がんデータにおいては4つのサブタイプが報告されているが,これに対して,マーカーの属するクラスターをクラスラベルと定義して,k-クラスのパタ-ン認識をフィッシャー線形判別によって予測し,このクラスターの構造が変わらないようにする変数(遺伝子)選択法を構築し,特にk平均法に変わる自発クラスタリングを開発した。これはクラスター数を自動的に推定できるアルゴリズムで,一般的な内容で論文発表したが,この問題に適用するために実験的に予備解析を行った。12月,香港の国際会議の参加の際にアカデミア・シニカのS-Y. Huang 教授とクラスタリングについて総合的なディスカッションを行った。
2: おおむね順調に進展している
初年度を終えた段階であるが,「LASSO クラスタリングによる開発」は実用化のレベルに到達した。これは膨大なマーカーの中から情報のあるマーカーを選択する,従来の方法に代わる新たな方法として有用であると思われる。教師なし学習の内容で開発されたこの方法は,予めクラスター法を決めないで,データごとに適切に求める「自発クラスタリング」であり,これについても,ある程度実用化の目途がついた。また,一般的な機械学習の方法として開発されたロバスト独立成分の方法やAUC最大化による表現型予測の方法も,このプロジェクトで実用化を図りたい。データベースGEO や過去の共同研究で得られたデータの,対象ごとに分類されたデータセットに対して,LASSO クラスタリングのマーカー選択法を適用してマーカーの候補を用意する.これらのデータセットの重みを決める方法については,未だ本格的な研究には着手していないが,予備的なデータの加工などについては開始されている。次に 候補に選ばれたマーカーのゲノム・遺伝子・分子の特性情報を援用しての適切な絞り込みについても,最近の文献を調査している。また,データセットに共通なマーカーを決定し,ターゲットのデータセットにつけられた重みをもとめる最適な決定方式についても考察している。このように5年プロジェクトの初年度が終わった段階としては十分な達成度が得られたと考えている。
25年度に得られた結果によって,単独の実データに対する結果だけではなく,現時点,世界で得られている相同なデータに対する結果にも対応することが可能になってきた。これより安定した予測性能が確かめられた幾つかの判別式の中から,さらに実用に向けて,研究を推進させる必要がある。選ばれた共通なマーカーを持つデータセットに対して,表現型予測のためのパタ-ン認識,回帰分析を実行する。このためブースト・アルゴリズムを並行して走らせメタラーニングを行う。アルゴリズムは単に独立に走らせるのではなく各ステップで相互に学習結果を補正しあうことを考える。このように各々のブースト・アルゴリズムに対してアップデートで結合する複数個のマーカーをプールしておき,その中で並列しているアルゴリズムで結合するマーカーが異なる場合には正則化によるペナルティを課し,できるだけ共通なマーカーを結合することが可能な学習則を構築する。そして得られたm 個の判別式には相似性があり,どのデータセットに対しても安定した予測性能を持つ。これをテスト用に取ってあったデータを使って検証する。最近の研究で,表現形によって予測のための特徴パターンが大きく異なることが分かった。ターゲットにする表現形は,薬剤奏功性なのか,予後なのかで,予測解析も異なることになる。このような点を中心に,がん研究会,国立がんセンターの医学専門家の協力体制のもと,総合的に検討し,個別化医療のための予測キットの実用化を検討する。このようにして得られた成果を,活発な展開が成されている次世代シーケンサーの研究との関連からも模索する。
総合的ディスカッションを予定していたウォーリック大学(UK)のJ.Copas教授が、スケジュール調整がつかず来日できなかったため。2014年9月21日から9月26日に開催される"The thirty threeth International Workshop on Bayesian Inference and Maximum Entropy Methods in Science and Engineering"で、江口と小森がこれまでの研究成果の発表を行う予定であるが、遠方(フランス・アンボワーズ)で多額の費用が見込まれるため、昨年度生じた未使用額を合わせてこれに充てる。
すべて 2014 2013
すべて 雑誌論文 (19件) (うち査読あり 18件) 学会発表 (8件) (うち招待講演 1件) 図書 (1件)
Journal of Clinical Bioinformatics
巻: 4 ページ: -
10.1186/2043-9113-4-3
Cancer Science
巻: 105 ページ: 576-582
10.1111/cas.12381
Journal of Medical Virology
巻: 86 ページ: 1130-1133
10.1002/jmv.23939
Neural Computation
巻: 26 ページ: 421-448
10.1162/NECO_a_00547
Genes Cancer
巻: 4 ページ: 54-60
10.1177/1947601913481354
PLoS One
巻: 8 ページ: 1-7
10.1371/journal.pone.0063860
Statistics in Medicine
巻: 32 ページ: 1904-1916
10.1002/sim.5718
生物の科学 遺伝
巻: 67 ページ: 368-371
Clin Lung Cancer
巻: 14 ページ: 407-417
10.1016/j.cllc.2012.12.006
IEEE Journal of Selected Topics in Signal Processing
巻: 7 ページ: 614-624
10.1109/JSTSP.2013.2247024
Geometric Science of Information. Lecture Notes in Computer Science
巻: 8085 ページ: 621-629
10.1007/978-3-642-40020-9_69
Entropy
巻: 15 ページ: 4732-4747
10.3390/e15114732
Computational and Mathematical Methods in Medicine
巻: 2013 ページ: -
10.1155/2013/179761
10.1155/2013/467420
10.1155/2013/568480
10.1155/2013/693901
ISRN Probability and Statistics
10.1155/2013/787141
10.1155/2013/798189
10.1155/2013/865980