環境水や飲用水には感染症を引き起こす病原体が含まれることがある.病原体とは病原細菌,病原ウイルス,および原虫を含む.モニタリングされる指標微生物の水質衛生基準値を設定する際には,指標微生物濃度と病原体濃度との相関関係を適切に定量化することが求められる.しかし,病原体の陽性率の低さが相関計算の障害となっている.本研究では,近年著しい発展を遂げる機械学習を使うことで,指標微生物と病原体の濃度相関解析を改善することを目指した.従来は指標微生物や病原体の濃度を使って相関を計算してきた.これに対し,本研究は,指標微生物や病原体の濃度と同時に取得できる水質データやドメイン知識を利活用することで,相関解析法の高精度化を狙った. 統計学において,トビット法という,非定量値と回帰直線を同時に推定する方法がある.トビット法では,観測された病原体濃度の確率密度関数,および検出限界を下回った濃度がその確率モデルにおいて非観測となる確率質量関数を得ることが出来,それらを組み合わせることで回帰係数の尤度関数を構成する.このアプローチをそのまま使ってしまう場合,予測に用いる情報が不十分になるため,非検出値の予測分布は大雑把なものにしかならず,そこから得られる相関解析は十分な精度で得られない.本研究では,水質データの援用によって,非検出値の予測分布を精密にすることで,相関係数の精度を向上させた.個別の説明変数の予測能力はさほど強くないため,標本が小さいとき符号が逆転した標本相関が発生する.本研究では,ドメイン知識を符号制約で表すことで,標本が小さくても,回帰分析の精度を大きく改善させ,これを相関解析のワークフローに取り込むことで,相関解析の精度を向上させることに成功した.
|