Étude de cas 1: Comptage de cellules dans des images microscopiques

2019

Data Source

The image set BBBC005v1 (https://data.broadinstitute.org/bbbc/BBBC005/) is from the Broad Bioimage Benchmark Collection [Ljosa et al., Nature Methods, 2012].

Organizer

Dr. Pingzhao Hu, Qian Liu, Department of Biochemistry and Medical Genetics, University of Manitoba; Dr. Kathryn Morrison, Precision Analytics Inc. and McGill University.

The emerging of high-throughput microscopic imaging modality triggers the “big data” problem even in a single experiment. It is no longer possible to manually analyze the microscopic images even for estimating a simple feature like cell count. Therefore, the needs for automated cell counting become crucial.

BBBC005v1 is a simulated microscopic image dataset. Each of the images is in an 8-bit TIF format with size 696 x 520 pixels. It provides in-focus (clear) and out-of-focus (blur) synthetic images. Each of these images was simulated for a given cell count. Gaussian filters were applied to simulate the images at different blur levels. The nuclei and cell body areas of the images were matched to the average nuclei and cell areas from a real microscopic dataset.

Images with three (F1, F23, F48) of the 16 blur levels of the BBBC005v1 dataset were selected as our raw image data for this case study. Both images with cell body stain and nuclei stain are included. This includes a total of 3,600 microscopic images.

Research Question

Les étudiants sont invités à élaborer des méthodes statistiques et computationnelles pour estimer le nombre de cellules dans les images.

Variables

Stratégies de concours

Ces 3 600 images ont été aléatoirement affectées à un ensemble de formation de 2 400 images et un ensemble de test de 1 200 images. Le nombre réel de cellules pour chacune des 2 400 images de l’ensemble de formation est fourni, tandis que le nombre réel de cellules pour chacune des 1 200 images de l’ensemble de test est inconnu. Les étudiants doivent élaborer des méthodes statistiques et computationnelles pour construire un modèle de prévision fondé sur l’ensemble de formation, qui sera appliqué à l’ensemble de test pour en estimer le nombre de cellules.

Les étudiants doivent soumettre le nombre estimé de cellules pour les 1 200 images de l’ensemble de test à Pingzhao Hu (pingzhao.hu@umanitoba.ca) au plus tard le 20 mai 2019. La performance des résultats de l’estimation sera évaluée en fonction de l’erreur quadratique moyenne (EQM) :

$EQM = \sqrt{moyenne(c-\hat{c})^2}$

Ici, c = [x1, x2, …, xn] représente le nombre réel de cellules dans les 1 200 images de l’ensemble de test et ĉ = [y1, y2, …, yn] représente le nombre estimé de cellules dans ces mêmes 1 200 images.

Chaque équipe doit également préparer une présentation par affiche pour le concours des études de cas dans le cadre du congrès 2019 de la SSC. La prévision du modèle comptera pour 60 % et la présentation par affiche pour 40 % de la note finale de l’équipe. Le score final sera noté selon 0,6/rang de la prévision du modèle + 0,4/rang de la présentation par affiche.

Data Access

Comment télécharger les ensembles de données : L’ensemble de données peut être téléchargé ici :

https://www.dropbox.com/sh/buofl2fhvyfi5bc/AAArMZbeKncXfz64kcY17l0pa?dl=0. (400MB file)

Pour toute question concernant le jeu de données, veuillez envoyer un courriel à pingzhao.hu@umanitoba.ca.

Organizateur :

Dr. Pingzhao Hu
Department of Biochemistry and Medical Genetics/Department of Computer Science
University of Manitoba

Division of Biostatistics, University of Toronto
e-mail: pingzhao.hu@umanitoba.ca

Le fichier "Data Files_Question1_SSC2019CaseStudy.zip" contient les répertoires et fichiers suivants :

Répertoire train

L’ensemble de formation inclut 2 400 images sélectionnées de manière aléatoire pour trois niveaux de flou (F1, F23, F48) et deux types de coloration (w1 – corps nucléaire, w2 – noyau). Il s’agit de 400 images pour chaque combinaison de niveau de flou et type de coloration: F1_w1,F1_w2,F23_w1,F23_w2,F48_w1,F48_w2. Le fichier train_label.csv inclut plus de détails sur les images.

Répertoire test

L’ensemble de test set inclut 1 200 images de manière aléatoire pour trois niveaux de flou (F1, F23, F48) et deux types de coloration (w1 – corps nucléaire, w2 – noyau). Il s’agit de 200 images images pour chaque combinaison de niveau de flou et type de coloration: F1_w1,F1_w2,F23_w1,F23_w2,F48_w1,F48_w2. Le fichier test_label.csv inclut plus de détails sur les images.

Description des fichiers

train_label.csv

Les lignes incluent les informations concernant les images individuelles de l’ensemble de formation. Les quatre colonnes représentent, respectivement :

image_name: si le nom de l’image est A01_C1_F1_s01_w1.TIF, cela signifie
- A01: Format de plaque simulées à 384 puits. Les lignes sont numérotées de A à P et les colonnes de 1 à 24. Vous n’avez pas besoin de cette information.
- C1: Nombre de cellules simulées dans l’image (1-100).
- F1: Niveau de flou appliqué (1, 23, 48).
- s01: Nombre d’échantillons (1-25). Vous n’avez pas besoin de cette information.
- w1: 1 = coloration du corps cellulaire, 2 = coloration du noyau.
cell_count: de 1 à 100.
blur_level: Niveau de flou appliqué (1, 23, 48).
stain: 1 = coloration du corps cellulaire, 2 = coloration du noyau.

test_label.csv

Les lignes incluent les informations concernant les images individuelles de l’ensemble de test. Les significations des trois colonnes sont identiques à celle du fichier train_label.csv. Nous avons caché l’information correspondant au nombre de cellules pour les images de l’ensemble de test.

Nous avons aussi fourni les codes R et Python permettant de lire les images aux fins de l’analyse de données.

code.R

Code R permettant de lire les valeurs de pixel des images et les informations d’étiquette.

Veuillez indiquer comme répertoire votre chemin de travail.
Il est possible que ce code R prenne 15 minutes ou plus pour lire toutes les images de votre environnement de calcul. N’hésitez pas à l’éditer ou à utiliser vos propres méthodes pour lire les valeurs de pixel des images de votre environnement.

code.py

Code Python permettant de lire les valeurs de pixel des images et les informations d’étiquette.

Veuillez indiquer comme répertoire votre chemin de travail.
Il est possible que ce code Python prenne 15 minutes ou plus pour lire toutes les images de votre environnement de calcul. N’hésitez pas à l’éditer ou à utiliser vos propres méthodes pour lire les valeurs de pixel des images de votre environneme