研究課題/領域番号 |
21K11907
|
研究機関 | 日本大学 |
研究代表者 |
末光 正昌 日本大学, 松戸歯学部, 講師 (10708770)
|
研究期間 (年度) |
2021-04-01 – 2026-03-31
|
キーワード | オープンデータセット / 口腔細胞診 / Papanicolaou染色 / 細胞像 / 病理画像 |
研究実績の概要 |
本研究は、口腔細胞診のオープン画像データセットを構築・公開し、その利用状況を明らかにすることである。 口腔がんの発生頻度が最も高い場所である舌の症例にフォーカスしオープン画像データセットを構築・公開した。データセットの詳細は、舌症例のうち、細胞判定でNegative for Intraepithelial Lesion or Malignancy(NILM)で炎症を伴わないもの19例、NILMで炎症を随伴するもの19例、Low-grade Squamous Intraepithelial Lesion or low-grade dysplasia 13例、High-grade Squamous Intraepithelial Lesion or high-grade dysplasia 15例、Squamous Cell Carcinoma 19例から撮影された細胞像9,593枚からなる画像データセットとなった。 細胞像は、対物レンズ40倍で、画像の中心に核が位置するように調整し、中心部の核に焦点が合った状態で撮影した。画像は1,024 pixel x 1,024 pixelのサイズでトリミングし、PNG形式で保存した。すべての画像を1つのフォルダに格納し、ZIP形式で圧縮し17.1GBの容量となった。データセットはhttps://oopid.jp/index.htmlにて公開中である。データセットの使用条件は、オープンデータ基本指針(平成29年5月30日IT本部・官民データ活用推進戦略会議決定 令和3年6月15日改正)に準拠した。 データセット構築に際しては、作業途中に明らかとなった、モーションアーチファクト(被写体ブレ)対策とレンズ収差を考慮したトリミング位置の固定に留意した。 オープン画像データセットの使用状況は、公開後約2か月で10回程度のダウンロード状況である。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
3: やや遅れている
理由
概要としては、ピットフォールの存在によりデータセット構築に遅延が生じた。その後の作業に関しては順調に進んだ。 最も時間を要する撮影に関しては、研究途中で明らかとなったピットフォールに留意して作業が進められた。撮影後は、画像の均質化を維持するために同一条件下でのトリミング、データセットユーザが画像の整合性を確認するためのハッシュの付与(SHA256)を行い、ウェブ上(https://oopid.jp/index.html)で公開となった。作成が完了したデータセットの詳細は、舌症例のうち、細胞判定でNegative for Intraepithelial Lesion or Malignancy(NILM)で炎症を伴わないもの19例、NILMで炎症を随伴するもの19例、Low-grade Squamous Intraepithelial Lesion or low-grade dysplasia 13例、High-grade Squamous Intraepithelial Lesion or high-grade dysplasia 15例、Squamous Cell Carcinoma 19例からなる9,593枚の細胞像である。 公開後は定期的なアクセスログの確認を行っており、データセットのダウンロード状況に関しては把握しているが、データセットの利用状況については公開から日が浅いため、十分明らかにはなっていない。
|
今後の研究の推進方策 |
現在舌症例の細胞像オープン画像データセット公開中である。今後の推進方策は3つを予定している。 1つ目は、データセットの利用状況を明らかにすることである。ダウンロード状況に関しては、サーバログから明らかになるが、実使用状況に関しては、使用上の注意に基づく表示を頼りに調査を行う予定である。尚、本データセットの使用条件は、オープンデータ基本指針(平成29年5月30日IT本部・官民データ活用推進戦略会議決定 令和3年6月15日改正)に準拠している。そのため、使用方法は種々の用途が想定される。 2つ目は、学会発表や論文等でデータセットを使用し、関連分野の研究者にオープン画像データセットの存在を認知してもらうことである。積極的な学会参加と論文作成を予定している。 3つ目が、さらなるデータセットの構築である。現在公開中のデータセットは、細胞像を対物レンズ40倍で撮影したものであり、核の解析に最適である。しかし、細胞診のスクリーニングに際しては、細胞検査士は通常対物レンズ10倍にて観察を行い、確認を要する細胞について対物レンズ40倍で観察するというフローである。そのため、画像データセットとしての需要は対物レンズ10倍の画像も一定数存在するものと考えられることから、低倍率のデータセット構築を考えている。更に、現在公開中のデータセットは、容量が17.1GBと膨大であるため、分割ダウンロードできるようにデータを分割して公開する予定である。
|
次年度使用額が生じた理由 |
研究遂行の遅延とコロナ禍等により、1)旅費のかさむ学会発表回数が想定よりも少なくなったこと。2)構築したデータセットを用いた画像の人的アノテーションが未実施であること。3)データセット構築に関する論文作成に遅延が生じたこと等があげられる。 2024年度は、オープンデータセットに関連した学会発表の遂行と、構築したデータセットの人的アノテーションデータを作成し、それらを使用した論文作成、低倍率で撮影した細胞像のデータセット作成等を行う予定である。
|