研究開始時の研究の概要 |
転写因子制御やDNA 修飾などのエピジェネティクス機構を対象とする研究で用いられる ChIP-Seq, ATAC-Seq, Bisulfite-Seq などのDNAシーケンスデータを網羅的に収集し解析するデータベース ChIP-Atlas では、開発当初よりサンプル情報の品質向上が大きな課題であった。ChIP-Atlas は現在、約375,000エントリのデータを収載しており、LLMによってサンプル情報の品質が向上すれば、さらなるデータの有効活用が期待される。本研究では、従来は人手で行っていたサンプル情報の品質向上を大規模言語モデルを利用して自動化することで、データベースの価値向上を目指す。
|