従来の細胞画像特徴量を用いたプロファイルデータ解析の性能の検証のため、スタチン類化合物で刺激されたMCF7細胞およびHeLa細胞を染色し、各オルガネラおよび細胞質の染色画像を取得、細胞形態に関わる特徴量を抽出した。OLSAによるプロファイルデータ解析を行ったところ、cerivastatinに特異的な素作用が抽出されたが、他に系統的な素作用を見出だすことができなかった。細胞画像から特徴量を抽出する段階に課題があると考え、ラットに160種類の化合物を投与し、20000枚を超える肝臓HE染色画像を収載したデータベースOpen TG-GATEs (TGGATEs)に注目した。Convolutional Neural Networkの一種であるEfficientNetB4から、TGGATEsの画像と病理所見を学習データとした深層学習により、細胞の形態特徴量抽出モデルを作成した。Leave one out法を用いた試験により、病理所見を学習させたモデルが、学習させた病理所見以外の画像特徴の情報を高い精度で抽出していることを検証した。作成したモデルにより抽出された特徴量を用いて、logistic回帰モデルを作成し、TGGATEs画像が持つ特徴を予測させることで性能を評価した。投与化合物の分類、投与化合物のmechanism of actionの分類、画像に存在する病理所見の判別のいずれにおいても、既存のImageNet pretrained modelよりも優れた性能を示していた。構築した特徴量抽出モデルは、HCAで取得した画像の特徴量抽出にも活用可能であると考えられる。また、病理所見の診断や、薬物の安全性試験などへの応用も期待される。
|