2013 Fiscal Year Research-status Report
新規潜在変数型回帰分析法、PCLSの開発とその医薬学データへの応用
Project/Area Number |
25460035
|
Research Category |
Grant-in-Aid for Scientific Research (C)
|
Research Institution | Osaka University |
Principal Investigator |
高木 達也 大阪大学, 薬学研究科(研究院), 教授 (80144517)
|
Co-Investigator(Kenkyū-buntansha) |
川下 理日人 大阪大学, 薬学研究科(研究院), 助教 (00423111)
岡本 晃典 大阪大学, 薬学研究科(研究院), 助教 (70437309)
|
Project Period (FY) |
2013-04-01 – 2016-03-31
|
Keywords | Chance Correlation / 主成分分析 / 主成分回帰 / PLS / バリマックス変換 / PCLS |
Research Abstract |
部分最小二乗法(PLS)は、広く医薬学分野で用いられており、応用範囲も広い。本来なら、不要な説明変数を含んでも、潜在変数に変換する際に寄与をゼロに近くすることにより、不要な説明変数の影響を取り除くことができるはずであるが、実際には説明変数の選択によって結果は変化する。本研究計画では、こうしたPLS の持つ欠点を取り除くため、因子分析などを駆使して、偶然の相関により残存する説明変数をできる限り除去する新規手法PCLS(Principal Component Least Squares)法を開発し、医薬学データへの応用を行う。 今年度はまず、人工データにより、PCLS法の基本的アルゴリズムの開発を行った。現在最善と思われるアルゴリズムは以下のようである。 1)データ行列(X)を主成分分析し、バリマックス変換により得られた主成分負荷量を初期潜在変数行列T(0)とする。2)PLSにより算出したローディングによる距離行列に基づき、クラスター分析を用いて、初期潜在変数を分類する。3)分類された潜在変数グループを逐次排除してゆき、残った主成分を用いて重回帰によるモデルを構築する。最も良好なモデルが採用される。 このアルゴリズムを、30個の残存すべき説明変数(50データ全てに対し、平均的に相関性を持つ)と、5個の偶然の相関をもつ説明変数(15データからなるテストセットを説明しない)からなる人工データに適用したところ、10回のシミュレーションで、外部ヴァリデーションが、R自乗の値で、0.48程度の向上を見た。回帰係数の値も、大多数の場合、真の説明変数で絶対値が大きく、偶然の相関を持つ変数で小さいという、良好な結果を得たが、一部、真の値を排除する例も見受けられるため、今後の改善が必要である。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
当初、初年度は線形アルゴリズムの開発を主要な目的としており、その目的は、既に記載したとおり、少なくとも人工データに関する限り概ね達成したと言っていい。予測性の改善度に関しては、当初考えていたよりも良好な結果を得ており、「成功率」を考えるなら、当初の目標以上であるとも言える。達成できなかった点はプログラムパッケージの作成だけであるが、これは、最終年度に移し、非線形問題に対するアルゴリズムの開発後、一括して行うべく、少々予定を変更したからであり、大きな問題ではないと考えている。
|
Strategy for Future Research Activity |
二年目以降は実際の解析と1年目の解析で残された問題点に対する検討を行う。バリマックス回転の他、プロクラス手す回転や斜交回転法など、幾つかの手法を試す他、従来存在していない変換法として、非線形変換法なども候補の一つとしてあげられる。 加えて、非線形問題に対する解法アルゴリズムを考案する。非線形アルゴリズムは、1)潜在変数と目的変数の回帰に、ノンパラメトリック回帰(当研究室の開発になるSINRADや、GAM、MARS など)を行うもの。2)PCA(回転後は因子分析と称した方が適切)に非線形PCA(Kernel PCA など)をもちいるもの の2種類及びその組み合わせが考えられるが、回帰後の説明変数の解釈を考えると、まずは、1)のアルゴリズムから試みたい。 更に、環境データとして、環境中に放出される化学物質の加水分解速度を取り上げる。このデータに関しては、既に当研究室で取り組みが行われて、ある程度、種々の解析法による検証が進んでいるため、必要な記述子やデータの予測性に一定のめど、基準が明らかになっている。これら既知情報を利用して、予測性の改善や不要記述子の排除など、既知情報では得られなかった情報の取得に努める。環境データばかりでなく、当初の予定通り、疫学データに対する応用も試みる。 最終年度には、プログラムパッケージを作成し、WWWベースのものにして広く一般に公開し、学会発表、論文化などを行うことにより、世界的に広く広報する予定である。
|
Expenditure Plans for the Next FY Research Funding |
当初、初年度にはプログラムパッケージを作成したりするため、高度な計算能力を有するコンピュータが必要となると考えたが、プログラムパッケージの作成は最終年度に回したため、サーバの購入などは次年度以降に行うこととなり、次年度使用額が発生した。また、学会も、たまたま、資料収集に最適な学会が2013年度は国際学会1つ程度しか開催がなかったため、主要な資料収集は、成果発表と合わせて次年度(PLS'14、Paris、2014年5月)に行うこととなった。 先述のように、PCの増強は今年度末に行う予定であり、資料収集は成果発表と共に行うが、年末には、Omicsグループによる国際学会(Med Chem & QSAR、サンフランシスコ、2014年12月)も開催される予定であり、2度の海外旅費が必要となるなど、主要な予算執行は今年度になる予定である。
|
Research Products
(1 results)