2021 Fiscal Year Research-status Report
口腔細胞診の画像解析普及を目指したオープンデータセット構築と公開
Project/Area Number |
21K11907
|
Research Institution | Nihon University |
Principal Investigator |
末光 正昌 日本大学, 松戸歯学部, 講師 (10708770)
|
Project Period (FY) |
2021-04-01 – 2026-03-31
|
Keywords | オープンデータセット / 細胞像 / 病理画像 |
Outline of Annual Research Achievements |
口腔細胞診の画像解析普及を目指すためには必要最低限の利用制限に留まり、解析に持ち込むハードルが低い、パッチ化された画像のオープンデータセットが必要である。そこで、病理分野における画像オープンデータセットの現状を明らかにし、それらを参考に口腔細胞診のオープン画像データセットを構築し公開することを目指している。 インターネットアクセス可能なパッチ化された病理分野オープン画像データセットと比較対象の顔画像オープンデータセットの現状(2021年8月時点)を調査した。結果、組織診8件、細胞診1件確認できた。その過程でTGCA(The Cancer Genome Atlas)等のwhole slide image公開サイトも散見された。データセットは、枚数が数百~数十万枚、容量が数十MB~40GB、解像度は50x50~2304x1728pixel、ファイル形式はjpg、png、tifであった。アノテーションは一部のものに付与されていた。データセットはいずれもzipで圧縮されていた。一方、代表的顔画像オープンデータセットは、枚数が数千~数十万枚、容量は0.5~90GB、解像度は178x218~1024x1024pixel、ファイル形式はjpgとpngであった。アノテーションはいずれのデータセットにも付与されていた。データセットは無圧縮のものと、tgzや7-zipで圧縮したものを確認した。 この調査により、パッチ化された病理分野のオープン画像データセットは僅少であることが明らかになった。今後構築する際には、ブロックノイズを防ぐために可逆圧縮方式を採用、環境依存性の形式で圧縮、アノテーションを付与することが重要であると考える。 また、構築したデータセットを公開するためのウェブサイト(https://oopid.jp)を作成し、試験的なデータを公開し、技術的な問題がないことを確認した。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
病理画像のオープンデータセット構築にあたり、病理画像オープンデータセットと代表的な画像オープンデータセットである顔画像オープンデータセットの現状の調査を行い、その現状を明らかにすることができた。そこで、病理画像オープンデータセット構築にあたり、画像解像度、画像ファイル形式、アノテーション有無、データセットの圧縮形式、データセット規模等の留意事項を把握することができた。 病理画像オープンデータセットを構築及び公開する上で、倫理委員会の承認を得る必要があり、今年度倫理委員会への申請を済ませ承認を得ることができた。 試験的な病理画像オープンデータセットを液状化検体細胞診検体を用いて標本作製(ThinPrep)を行い、Papanicolaou染色スライド標本を作成し、細胞像の撮影を行い、トリミング等のアライメントを行いオープンデータセットの試験データを構築した。 病理画像オープンデータセットは構築後、ウェブで公開予定であるためドメイン取得及びレンタルサーバとの契約を行い、公開用のウェブサイトのコーディングを行い、公開用ウェブサイトを作成した(https://oopid.jp/index.html)。このウェブサイトで前記の試験データを公開中であり、公開に関する技術的な問題がないことが確認できており、病理画像データセットが構築できた暁には、速やかにウェブで公開できることが予想されている。 以上のことから、初年度の遂行状況は概ね順調に進展しているといえる。
|
Strategy for Future Research Activity |
病理画像オープンデータセットを構築するにあたり、細胞診スライドガラス標本を用いた細胞像を多量に準備する必要がある。一般的にデータセットは大規模なものの方が利用価値が高いと考えられるが、顕微鏡で手あたり次第細胞像の撮影を行えばよいわけではなく、将来的にアノテーション情報を付与することや公開の為に患者情報の匿名化を行うことを勘案すると、事前に採取方法(従来法、液状化検体)、採取部位(舌、頬粘膜、歯肉、口蓋、口底)、細胞判定(NILM、LSIL、HSIL、SCC)等を整理しておく必要がある。また、細胞診スライドガラス標本は、採取時に変性している場合もあり、標本の選定も非常に重要である。そこで、まずスライドガラス標本の選定及び整理を行い、アノテーション情報を容易に付与できる準備を施し、匿名化処理をしてもアノテーションに影響がない状態にしたうえで細胞像の撮影を行う予定である。そして、必要に応じて標本の再染色を行うことも想定している。 アノテーション情報の付与についてはあらゆる可能性が考えられる為、最低限のアノテーション情報に加え、細胞像の画像解析を行うにあたり必要と思われるアノテーション情報についても予め検討する。 口腔粘膜は組織学的に、咀嚼粘膜、被覆粘膜、特殊粘膜の3種類に分けられている。従って、オープンデータセット構築は、部位別に遂行する予定である。加えて、口腔粘膜扁平上皮癌の発生頻度に鑑み、最初に舌を行い、その後歯肉等の他部位を予定している。オープンデータセットの公開は、逐次公開を予定しているが、アノテーション情報による細分化を行うと取扱いが煩雑になるため、部位ごとでの公開を考えている。公開後は、学会や論文等で広く周知することを考えている。
|
Causes of Carryover |
今年度に整備予定であった、ウェブサイト維持に関する物品が世界的な半導体不足により年度内に納品することが困難であったため、次年度に繰り越すこととした。次年度は翌年度分として請求した助成金と合わせて元来の計画に沿った使用に合わせこれらの物品をそろえる予定である。
|
Research Products
(3 results)