本研究の目的は、機械学習を用いて実験計画を解析することで、取り扱うすべての化学物質の危険有害性の特定と実験に潜むリスクの見積りを自動で行い、総合的なリスクを出力する化学物質リスクアセスメントのプログラムの構築である。 本研究の主な成果は、深層学習で実験事故を解析することで得ることができた「実験計画に潜むリスクの予測モデルの構築」である。本研究では、国立大学で共有している実験事故報告約2000件を活用した。実験事故報告書は過去形で記載されているが、時制を削除して深層学習で解析することで、実験計画に潜むリスクを予測できるよう工夫した。火災の危険や切傷注意などの21種のリスクのうち、実験事故の概要から読み取れる原因として最も適切と思われるものでラベリングし、予測モデルに学習させた。自然言語処理で広く用いられているBERT(Transformerによる双方向のエンコード表現)及びBiLSTM(双方向長短期記憶)を用いて予測モデルを構築した。BERTという言語モデルを用いて、実験事故の概要の特徴を抽出し、BiLSTMネットワークによって実験事故の概要の文脈を学習させ、21種のリスクを用いて分類するよう学習させた。入力した実験計画の例に対して出力されるリスクは、おおむね適切であり、安全教育に活用できるものと考える。この研究成果をまとめ、国際論文(査読有)に投稿中である。 また、化学物質の危険有害性の予測のため、化学物質の既知情報を収集した。アメリカ国立衛生研究所(NIH)の下の国立生物工学情報センター(NCBI)によって維持管理されている化学分子データベース「PubChem」には、GHS分類、物理的及び化学的性質等の情報が掲載されており、そのデータ約1万件を入手した。今後も解析を継続し、データ整理、モデルの修正等、予測精度の向上に努め、学術論文等でその成果を発表していく。
|