研究課題/領域番号 |
25460035
|
研究機関 | 大阪大学 |
研究代表者 |
高木 達也 大阪大学, 薬学研究科(研究院), 教授 (80144517)
|
研究分担者 |
川下 理日人 大阪大学, 薬学研究科(研究院), 助教 (00423111)
岡本 晃典 大阪大学, 薬学研究科(研究院), 助教 (70437309)
|
研究期間 (年度) |
2013-04-01 – 2017-03-31
|
キーワード | 回帰分析 / 偶然の相関 / 正則化 / 説明変数 / 医薬学統計 |
研究実績の概要 |
昨年度に引き続き、異なる種類の人工データを作成し、多様なデータパターンで、ある程度の「偶然の相関」を有する説明変数を除去しうることが見いだされた。アルゴリズム的には昨年度同様、Ward法によるクラスター分析を用いた。 これに加えて、実データへの応用として、化学物質の環境中における加水分解速度定数予測に関し、上記手法を用いてみた。しかしながら、人工データで思うように働いた記述子分類がはっきりとは区分できなかったため、予測結果の改善につながらなかった。例えば、エステル類の加水分解反応速度に関しては、解析に用いたデータの重相関係数の二乗は、0.690と良好な値を示すが、外部バリデーションを行うと、負の値を示すなど、overfittingが起こっている~線形なので、偶然の相関が取り切れていない~ことを示していると思われる。 これは、実データにおいては、偶然の相関が、人工データのように典型的に起こる場合のみではないことを示しており、そのような場合の対処方法を考える必要が出てきた。例えば、ある記述子が、部分的には有用なものであるが、部分的には偶然の相関を示すことも十分ありうることで、この場合に、当該記述子をどう処遇するかが重要な問題になる。このため、非線形回帰への適用に先立って、「部分偶然相関」にまず対処するよう、当初の計画を少し変更することとした。ここでは、L1正則化を取り込むことにより、線形、非線形共通の最適手法を構築する。 なお、研究成果は、8th International Conference on Partial Least Squares and Rekated Methods (PLS2014), Paris, May 2014 (Proceedings, pp.197-198).で発表した。また、CAC2015, Changsha, China, June 2015でも発表予定である(キーノートレクチャー)
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
人工データでは、当初の予定通り、偶然の相関をほぼ完ぺきに取り除くことができた。ただし、実際のデータ、具体的には、カルボン酸エステルやリン酸エステルの加水分解速度のデータの予測に関しては、外部バリデーションの結果があまり良好ではなかった。このため、データを詳細に検討した結果、以下のような事実が明らかになった。 1.実データにおいては、一部の記述子で、予想されるよりも高い重要度が観測された。これはおそらく、当該記述子が、部分的には応答変数の説明に役に立っており、かつ、残りは「偶然の相関」になっていることに起因するものと思われる。このような場合、当該記述子を完全に削除すると相関係数に悪影響が出てくるものの、組み入れると過学習を起こす元になるというジレンマに陥ってしまう。 2.原理的に相関しているものと見分けがつかない「偶然の相関」を有する記述子が少なくない。このような記述子は、当初から、「取り除けない」と考えているが、どの程度多いかは、ケースバイケースであり、加水分解速度が偶々そうであった可能性もある。 このため、現在、正則化とPLS、SOMを組み合わせたシステムを構築中であり、また、DNAアレイデータにより、ロジスティック回帰への応用を通じて、他の実データにおいてどうであるか、試している。当初の予定と、順序的に差異はあるものの、線形手法に適用可能なシステムは非線形手法にも容易に応用できることが分かったため、全体としての進行度はほとんど変更がない。
|
今後の研究の推進方策 |
実データにおいても、可能な限り偶然の相関を回避するため、以下のようなアルゴリズムを考案中である。 1.正則化(Lasso、Cossoなど)により、不要な記述子はあらかじめ削除する。 2.データをその3分の2程度の小グループに分割し、このようなグループを多数構成する。それぞれのグループでSOMを通し、多数得られるSOMマップから、それぞれの記述子の位置を重ね合わせる。そうすると、相対位置の移ろいやすい記述子とそうでない記述子が出てくることが予想されるため、移ろいやすい記述子が、偶然の相関である可能性を考慮し、そうでない記述子のみを選択する。ここでは、どの程度「移ろわないもの」を選択するかを、客観的、定量的に決める必要があるため、それぞれのMAPを、「最も点の移動が少ないように」重ね合わせることが重要で、これができれば、各記述子を表す点の総移動距離をもって、判定することができる。 3.残った記述子で、線形、非線形回帰を行う。適用データとしては、DNAアレイデータへのロジスティック回帰、一般化線形モデルなどを考えている。 当初の予定では、26年度中に非線形回帰への応用を考えていたが、システム的には、線形回帰に応用可能なものは、容易に非線形回帰にも応用できるため、それに長時間をかけるよりは、より精緻なシステムを考案した方がいいと考え、非線形回帰への応用を後回しにした。全体としての計画は、順序こそ入れ替わったとはいえ、ほとんど変更はない。
|
次年度使用額が生じた理由 |
当初非線形回帰への応用を先に実行する予定であったが、先決問題(部分的偶然の相関の除去)が発生したために、先にその解決に時間を割くこととなった。非線形回帰への応用は、線形問題への応用が可能であれば、原理的、アルゴリズム的にはほぼ自動的に行うことができ、計画の全体的な進行には重要な問題ではないが、非線形問題の解析が最も計算機時間を要すること、種々のリソースが必要になることから、当初必要としたリソースを次年度へまわさざるを得なくなった。
|
次年度使用額の使用計画 |
実データにおける解析結果とその問題に関しては、CAC2015で発表予定であり、招待講演であるため、Registration Fee は不要であるが、往復の交通費と宿泊費が必要であるため、これに使用する予定である。また、残りは、非線形問題解析のために必要なソフトウェアの購入と、プログラミングに対する謝金に充てる予定である。原理的、アルゴリズム的には容易であるが、最も時間と費用のかかる非線形問題を最後に持ってくるように順序変更したため、費用の過剰が生じた。
|