研究実績の概要 |
令和4年度は、機械学習によるアーチファクトの分類を本格的に実施した。使用するデータは、単一個人のDNA試料(350例)および2人から4人までのDNA混合試料(180例)から得られた全ピーク(43,158個)とした。それぞれのピークに対して、既知のDNA型情報および専門的観点を基に、アレルまたはアーチファクト(back stutter、forward stutter、double-back stutter、minus 2-nt stutter、pull-up、otherのいずれか)に分類してラベル化した。 機械学習には様々な手法があるが、本研究では過学習を起こしにくく、特徴量(分類の手掛かりとなる指標)の正規化・標準化が不要なランダムフォレスト法を採用した。まず、全ピークの3/4を訓練データ、1/4をテストデータに振り分けた。次に、訓練データを用いて、特徴量をBoruta法にて選択した。続いて、学習結果に汎用性があることを確認するために、再び訓練データを用いて、交差検証を実施した。最後に、訓練データで学習した結果を基にテストデータの判定を行い、正解率を評価した。一連の解析は、Pythonのライブラリscikit-learnを用いて行った。 その結果、特徴量として17種類の指標が採用され、交差検証の結果、データの分割の仕方によらず正解率は約98.9%で安定した。また、テストデータの正解率も98.9%と非常に高い値が得られた。一般に識別が困難な極少量のDNA提供者に由来するアレルと各種stutterに関しても、高精度で判定できた。したがって、ランダムフォレスト法によるピークの分類は、法科学者がDNA型検査結果の解釈を進めていく上で大きな手助けになるものと期待された。
|